Εξόρυξη γνώσης από ελληνικά κείμενα και σύγκριση αλγορίθμων εξαγωγής λέξεων-κλειδιώ

Πτυχιακή Εργασία 23919 210 Αναγνώσεις

Πρωτότυπος Τίτλος:
Εξόρυξη γνώσης από ελληνικά κείμενα και σύγκριση αλγορίθμων εξαγωγής λέξεων-κλειδιώ
Συγγραφέας:
Κλωνής-Σκέντζος, Χαράλαμπος, Δημήτριος
Επιβλέπων καθηγητής:
Βαρλάμης, Ηρακλής
Περίληψη:
Αυτή η πτυχιακή εργασία κλήθηκε να συγκρίνει αλγορίθμους unsupervised εξαγωγής λέξεων κλειδιών και να μελετήσει τη συμπεριφορά τους σε κείμενα στην ελληνική γλώσσα. Στα πλαίσια της ανάγκης για προεπεξεργασία, χρησιμοποιήθηκε το spaCy και πάνω σε αυτό χτίστηκε ένας rule-based lemmatizer που αναζητά το λήμμα της λέξης με βάση τη γραμματική ανάλυση της. Με την υλοποίησή του, έγινε ο πρώτος lemmatizer στο spaCy που ακολουθεί αυτή την εμβαθυμένη λογική. Μετά την προεπεξεργασία, χρησιμοποιήθηκαν τα χαρακτηριστικά κειμένου Bag of Words και TF-IDF, και οι αλγόριθμοι TextRank, Yake και Rake. Συνδιαστικά, μέσω pointing system καταλήγουν σε μια μοναδική λίστα λέξεων κλειδιών που περιλαμβάνει μονογράμματα και διγράμματα. Η εργασία βρίσκει εφαρμογή στην ανάλυση κειμένων του διαδικτύου και πιο συγκεκριμένα ειδησεογραφικά κείμενα προσφέροντας στοχευμένη ανάκτηση πληροφορίας.
Ημερομηνία κατάθεσης:
2020-10-30
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Εξόρυξη δεδομένων
Αλγόριθμοι - Επεξεργασία δεδομένων
Λέξεις-κλειδιά:
Ανάκτηση Πληροφορίας, Προεπεξεργασία Κειμένου, Εξαγωγή φράσεων- κλειδιών, Εξόρυξη Γνώσης
Περιγραφή:
50 σ.,πίν.,σχ.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0