Σύγκριση κειμένων με χρήση γράφων εγγύτητας και τεχνικές εξαγωγής πληροφορίας

Πτυχιακή Εργασία 18222 428 Αναγνώσεις

Πρωτότυπος Τίτλος:
Σύγκριση κειμένων με χρήση γράφων εγγύτητας και τεχνικές εξαγωγής πληροφορίας
Συγγραφέας:
Τσεκούρας, Λεωνίδας Ε.
Επιβλέπων καθηγητής:
Βαρλάμης, Ηρακλής
Περίληψη:
Η σύγκριση κειμένων είναι μια διαδικασία που έχει πολλαπλές χρήσεις στην επεξεργασία της φυσικής γλώσσας. Μπορεί να χρησιμοποιηθεί για την ομαδοποίηση κειμένων, αυτόματη εξαγωγή περιλήψεων και άλλες χρήσεις, οπότε με τη βελτίωση των διαθέσιμων μεθόδων για τη σύγκριση κειμένων μπορούν έμμεσα να βελτιωθούν και όλες οι άλλες διαδικασίες που βασίζονται σε αυτή. Στην παρούσα εργασία δοκιμάζουμε έναν νέο τρόπο σύγκρισης κειμένων, βασισμένο κυρίως στην εξαγωγή ονοματικών οντοτήτων από τα κείμενα και την αναπαράστασή τους ως γράφους.
Το μέτρο σύγκρισης κειμένων που υλοποιήσαμε αρχικά εξάγει τις οντότητες από τα κείμενα χρησιμοποιώντας την υπηρεσία OpenCalais, και στη συνέχεια αντικαθιστά τις λέξεις των κειμένων που δεν είναι οντότητες με κάποιο σύμβολο που έχουμε ορίσει. Αυτή η ενδιάμεση αναπαράσταση των κειμένων μετατρέπεται στη συνέχεια σε γράφο λέξεων με χρήση της εργαλειοθήκης JINSECT, και οι δύο γράφοι των κειμένων συγκρίνονται έτσι ώστε να πάρουμε τελικά την ομοιότητα των κειμένων που θέλουμε να συγκρίνουμε.
Στη συνέχεια χρησιμοποιήσαμε τον υλοποιημένο αυτό αλγόριθμο για την ομαδοποίηση ενός συνόλου κειμένων με τη χρήση των αποτελεσμάτων του στον αλγόριθμο ομαδοποίησης OPTICSXi, και αξιολογήσαμε τη διαδικασία με κάποια μέτρα ακρίβειας της ομαδοποίησης που υλοποιήσαμε. Συγκρίναμε επίσης την ακρίβεια της ομαδοποίησης αυτής με τα αποτελέσματα που πήραμε από την ομαδοποίηση χρησιμοποιώντας πάλι τον OPTICSXi αλλά αυτή τη φορά με χρήση γράφων ν-γραμμάτων στο αρχικό κείμενο ως μέτρο σύγκρισης των κειμένων.
Τα αποτελέσματα που πήραμε δείχνουν ότι, τουλάχιστον με βάση την ομοιότητα των κειμένων που θεωρήσαμε ως σωστή στα πειράματα που έγιναν, η χρήση ονοματικών οντοτήτων για τη σύγκριση των κειμένων αποδίδει καλύτερα από τη σύγκριση των κειμένων χωρίς κάποια προεπεξεργασία με βάση γράφους ν-γραμμάτων.
Ημερομηνία κατάθεσης:
2017-03-02
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Τεχνολογία της πληροφορίας
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λέξεις-κλειδιά:
ομοιότητα κειμένων, αναγνώριση ονοματικών οντοτήτων, ν-γράμματα, γράφοι, επεξεργασία φυσικής γλώσσας
Περιγραφή:
65 σ., εικ., πίν., διαγρ., σχ.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

Tsekouras_IT_17.pdf

808 KB