Καθαρισμός και εξόρυξη δεδομένων: μια μελέτη περίπτωσης σε ιατρικά δεδομένα

Πτυχιακή Εργασία 9511 347 Αναγνώσεις

Πρωτότυπος Τίτλος:
Καθαρισμός και εξόρυξη δεδομένων: μια μελέτη περίπτωσης σε ιατρικά δεδομένα
Συγγραφέας:
Ψωμακέλης, Ευάγγελος
Επιβλέπων καθηγητής:
Αναγνωστόπουλος, Δημοσθένης
Περίληψη:
Η παρούσα πτυχιακή εργασία έχει αντικείμενο τον καθαρισμό και την ανάλυση ιατρικών δεδομένων, ώστε να εξαχθούν κανόνες. Η βάση δεδομένων παραχωρήθηκε από το ογκολογικό νοσοκομείο άγιος Σάββας Αθηνών. Μελετήθηκαν διάφορα επιστημονικά άρθρα που αφορούν την επεξεργασία ιατρικών δεδομένων με αλγόριθμους και τεχνικές μηχανικής μάθησης. Επίσης, ερευνήθηκαν εργασίες σχετικές με τη διαδικασία καθαρισμού τέτοιων δεδομένων και συστήματα λογισμικού που έχουν δημιουργηθεί για επεξεργασία ιατρικών δεδομένων με σκοπό την εύρεση συσχετίσεων.
Χρησιμοποιήθηκαν οι αλγόριθμοι C4.5 και Apriori οι οποίοι και παρουσιάζονται μαζί με βασικές έννοιες, η γνώση των οποίων είναι απαραίτητη για την κατανόηση της λειτουργίας των αλγορίθμων αυτών. Οι C4.5 και Apriori υλοποιήθηκαν μέσω της βιβλιοθήκης της Weka, η οποία αποτελεί τη βιβλιοθήκη συναρτήσεων που χρησιμοποιήθηκε κατά τη δημιουργία του προγράμματος, το οποίο αναπτύχθηκε στο πλαίσιο της παρούσας έρευνας.
Αναλύθηκε, από στατιστικής απόψεως, το σύνολο δεδομένων το οποίο χρησιμοποιήθηκε στην παρούσα έρευνα και εκτελέστηκαν σε αυτό διαδικασίες με σκοπό τον καθαρισμό του από δεδομένα που πιθανόν να δημιουργούσαν πρόβλημα στην περαιτέρω επεξεργασία. Η ανάλυση αυτή παρέχει στοιχεία για τη δομή της βάσης δεδομένων αλλά και για το περιεχόμενο της με στατιστικά στοιχεία και μετρήσεις. Οι ίδιες μετρήσεις εκτελέστηκαν και στο καθαρισμένο και προεπεξεργασμένο σύνολο δεδομένων.
Η εφαρμογή των αλγορίθμων αυτών οδήγησε σε εξαγωγή πληροφορίας σε μορφή κανόνων πρόβλεψης τιμών. . Εκτελέστηκαν αρκετά διαφορετικά πειράματα στο κάθε ένα από τα οποία ορίζονταν μία στήλη στόχος και εξετάζονταν η συσχέτιση της από ένα υποσύνολο των διαθέσιμων δεδομένων. Δύο από τους κυριότερους κανόνες που παρήγαγαν οι αλγόριθμοι είναι ο κανόνας “η στήλη Αποβολές και η στήλη Υποτροπή θα έχουν αντίθετες τιμές με εμπιστοσύνη περίπου 75%” και “αν η ασθενής έχει παιδιά τότε δεν θα παρουσιάσει υποτροπή με εμπιστοσύνη 71%”.
Ημερομηνία κατάθεσης:
2012-10-15
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Τεχνολογία της πληροφορίας
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Εξόρυξη δεδομένων
Ιατρική - Επεξεργασία δεδομένων
Περιγραφή:
100 σ. : πίν., εικ.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0