Περίληψη:
Σκοπός της πτυχιακής εργασίας είναι η εφαρμογή αλγορίθμων επικάλυψης λέξεων (Lesk-based algorithms on word overlap) στην αποσαφήνιση της έννοιας πολύσημων λέξεων (Word Sense Disambiguation) με έμφαση στην ιατρική ορολογία.
Η έννοια της αποσαφήνισης λέξεων αφορά στην αντιμετώπιση της ασάφειας που μπορεί να εμφανιστεί στην ερμηνεία ενός όρου, ο οποίος συνδέεται στενά με δύο ή περισσότερα θέματα. Η ερμηνεία μπορεί να αλλάζει ανάλογα με το περιβάλλον στο οποίο βρίσκεται ο όρος (πρόταση, παράγραφος, κείμενο). Η ασάφεια στην έννοια μιας λέξης είναι χαρακτηριστικό της φυσικής γλώσσας. Για παράδειγμα η λέξη 'κρύο' έχει αρκετές έννοιες και μπορεί να αναφέρεται σε μια ασθένεια, στη θερμοκρασία ή σε μια περιβαλλοντική κατάσταση.
Η ασάφεια στην ερμηνεία ενός όρου δημιουργεί μεγάλες δυσκολίες σε πολλές εργασίες διαχείρισης κειμένων, π.χ. στην αναζήτηση ή στην κατηγοριοποίηση κειμένων. Η αποσαφήνιση γίνεται συνήθως με χρήση του περιβάλλοντος στο οποίο εμφανίζεται ο όρος, δηλαδή των λέξεων που εμφανίζονται στο ίδιο κείμενο, στην ίδια πρόταση, σε κοντινή απόσταση με τον όρο. Μια μεγάλη κατηγορία μεθόδων χρησιμοποιεί λεξικά και άλλους γλωσσολογικούς πόρους ώστε να εντοπίσει την καταλληλότερη έννοια για έναν όρο.
Η εργασία εντάσσεται σε αυτή την κατηγορία μεθόδων αποσαφήνισης καθώς χρησιμοποιεί γλωσσολογική γνώση και συγκεκριμένα τον ιατρικό θησαυρό UMLS (Unified Medical Language System) και στοχεύει στην αποσαφήνιση πολύσημων ιατρικών όρων.
Στο UMLS Metathesaurus που συνδυάζει πολλές βάσεις με ιατρικές ορολογίες, έγινε μια έρευνα που διερευνά την αυτόματη επίλυση της έννοιας μια λέξης χρησιμοποιώντας τεχνικές φυσικής γλώσσας. Πιο συγκεκριμένα, για την αποσαφήνιση μιας λέξης μέσα στο περιβάλλον της (παράγραφος) χρησιμοποιήθηκε η ομοιότητα του λήμματος (ορισμός) κάθε έννοιας της λέξης με την παράγραφο. Η έννοια με τη μεγαλύτερη ομοιότητα είναι η επικρατέστερη κάθε φορά. Η ομοιότητα μετρήθηκε με ένα κλασικό αλγόριθμο που μετρά την επικάλυψη λέξεων (αλγόριθμος Lesk) μεταξύ δύο κειμένων.
Προκειμένου να υποστηριχθεί η έρευνα που έγινε και να αξιολογηθούν τα αποτελέσματά της, χρησιμοποιήθηκε μια συλλογή ιατρικών δοκιμαστικών κειμένων (περιλήψεις από την συλλογή επιστημονικών άρθρων Medline) στην οποία οι ασάφειες έχουν επιλυθεί εξαρχής με το χέρι. Η συλλογή αποτελείται από 50 πολύ συχνά διφορούμενες λέξεις. Κάθε μία από τις 50 λέξεις έχει 100 πιθανές έννοιες-περιπτώσεις.
Τα αποτελέσματα από αυτή τη μελέτη είναι η ακρίβεια των αποτελεσμάτων σε σύγκριση με τα αποτελέσματα που παίρνουμε ως δεδομένα από το UMLS. Το πρόγραμμα αυτόματης αποσαφήνισης επιλέγει το καλύτερο αποτέλεσμα και αυτό το συγκρίνουμε με το αποτέλεσμα που έχουν επιλέξει οι εκτιμητές του UMLS. Αν τα αποτελέσματα είναι τα ίδια τότε το λαμβάνουμε ως σωστό διαφορετικά ως λάθος. Η ακρίβεια είναι το πηλίκο των σωστών αποτελεσμάτων προς τις συνολικές περιπτώσεις.