Περίληψη:
Η παρούσα πτυχιακή εργασία έχει αντικείμενο τον καθαρισμό και την ανάλυση ιατρικών δεδομένων, ώστε να εξαχθούν κανόνες. Η βάση δεδομένων παραχωρήθηκε από το ογκολογικό νοσοκομείο άγιος Σάββας Αθηνών. Μελετήθηκαν διάφορα επιστημονικά άρθρα που αφορούν την επεξεργασία ιατρικών δεδομένων με αλγόριθμους και τεχνικές μηχανικής μάθησης. Επίσης, ερευνήθηκαν εργασίες σχετικές με τη διαδικασία καθαρισμού τέτοιων δεδομένων και συστήματα λογισμικού που έχουν δημιουργηθεί για επεξεργασία ιατρικών δεδομένων με σκοπό την εύρεση συσχετίσεων.
Χρησιμοποιήθηκαν οι αλγόριθμοι C4.5 και Apriori οι οποίοι και παρουσιάζονται μαζί με βασικές έννοιες, η γνώση των οποίων είναι απαραίτητη για την κατανόηση της λειτουργίας των αλγορίθμων αυτών. Οι C4.5 και Apriori υλοποιήθηκαν μέσω της βιβλιοθήκης της Weka, η οποία αποτελεί τη βιβλιοθήκη συναρτήσεων που χρησιμοποιήθηκε κατά τη δημιουργία του προγράμματος, το οποίο αναπτύχθηκε στο πλαίσιο της παρούσας έρευνας.
Αναλύθηκε, από στατιστικής απόψεως, το σύνολο δεδομένων το οποίο χρησιμοποιήθηκε στην παρούσα έρευνα και εκτελέστηκαν σε αυτό διαδικασίες με σκοπό τον καθαρισμό του από δεδομένα που πιθανόν να δημιουργούσαν πρόβλημα στην περαιτέρω επεξεργασία. Η ανάλυση αυτή παρέχει στοιχεία για τη δομή της βάσης δεδομένων αλλά και για το περιεχόμενο της με στατιστικά στοιχεία και μετρήσεις. Οι ίδιες μετρήσεις εκτελέστηκαν και στο καθαρισμένο και προεπεξεργασμένο σύνολο δεδομένων.
Η εφαρμογή των αλγορίθμων αυτών οδήγησε σε εξαγωγή πληροφορίας σε μορφή κανόνων πρόβλεψης τιμών. . Εκτελέστηκαν αρκετά διαφορετικά πειράματα στο κάθε ένα από τα οποία ορίζονταν μία στήλη στόχος και εξετάζονταν η συσχέτιση της από ένα υποσύνολο των διαθέσιμων δεδομένων. Δύο από τους κυριότερους κανόνες που παρήγαγαν οι αλγόριθμοι είναι ο κανόνας “η στήλη Αποβολές και η στήλη Υποτροπή θα έχουν αντίθετες τιμές με εμπιστοσύνη περίπου 75%” και “αν η ασθενής έχει παιδιά τότε δεν θα παρουσιάσει υποτροπή με εμπιστοσύνη 71%”.