Εξόρυξη Δεδομένων από Ελληνικά Κείμενα με Στόχο τη Κατηγοριοποίηση με τη Χρήση του Greek BERT

Μεταπτυχιακή Εργασία 25760 74 Αναγνώσεις

Πρωτότυπος Τίτλος:
Εξόρυξη Δεδομένων από Ελληνικά Κείμενα με Στόχο τη Κατηγοριοποίηση με τη Χρήση του Greek BERT
Συγγραφέας:
Γκολφόπουλος, Γεώργιος, Νικήτας
Επιβλέπων καθηγητής:
Βαρλάμης, Ηρακλής
Περίληψη:
Η κατηγοριοποίηση κειμένων είναι μια σημαντική μελέτη στον τομέα της εξαγωγής
πληροφορίας από κείμενα (Text Mining), έχοντας ένα μεγάλο εύρος εφαρμογής. Τα τελευταία
χρόνια, μέσω της εξέλιξης αλγορίθμων νευρωνικών δικτύων (Neural Networks), έχουν
αναπτυχθεί πολλές τεχνικές εξαγωγής γλωσσικών μοντέλων από μεγάλες συλλογές κειμένων
γνωστά ως προ-εκπαιδευμένα γλωσσικά μοντέλα (Pre-Trained Language Models), οι οποίες
βρίσκουν εφαρμογή σε ποικίλες εργασίες επεξεργασίας φυσικής γλώσσας (Natural Language
Processing - NLP). Την συγκεκριμένη χρονική στιγμή, η βέλτιστη πρακτική για ταξινόμηση
κειμένων είναι η εφαρμογή των Pre-Trained Language Models με την κατάλληλη προσαρμογή
τους (Fine-Tuning).
Στόχος της παρούσας διπλωματικής εργασίας ήταν η δημιουργία ενός κατηγοριοποιητή
κειμένων για εφαρμογή πάνω σε Ελληνικά άρθρα, κείμενα και ειδήσεις. Οι βασικοί πυλώνες
αυτού του εγχειρήματος είναι το καινοτόμο μοντέλο BERT της Google και η εξελληνισμένη του
εκδοχή (GreekBERT). Ο απώτερος σκοπός της συγκεκριμένης διπλωματικής ήταν, με την χρήση
της ήδη υπάρχουσας γνώσης και τεχνογνωσίας στον τομέα της Επεξεργασίας Φυσικής
Γλώσσας, η ανάπτυξη και η εκπαίδευση ενός μοντέλου κατηγοριοποίησης Ελληνικών ειδήσεων
που μέσω συνεχής εκπαίδευσης και αλληλεπίδρασης με τους χρήστες θα καταφέρει να
επιτύχει μέγιστα αποτελέσματα.
Αρχικά γίνεται αναφορά στο θεωρητικό κομμάτι των τεχνικών του text mining, των μοντέλων
κατηγοριοποίησης και του μοντέλου BERT. Στη συνέχεια και αφού έχει γίνει η κατανόηση του
μοντέλου BERT παρουσιάζονται τα βασικά σημεία του μοντέλου που αναπτύχθηκε και
εκπαιδεύτηκε για τον Κατηγοριοποιητή Ελληνικών Κειμένων με τη προγραμματιστική γλώσσα
python καθώς και της web σελίδας με τη χρήση της προγραμματιστικής γλώσσας HTML. Κατά
την ολοκλήρωση της εργασίας παρουσιάζονται τα αποτελέσματα της ακρίβειας και της
αποτελεσματικότητας των κατηγοριοποιήσεων του μοντέλου (accuracy) κατά την πρώτη
εκπαίδευση και χρήση , με το dataset των 4000 κειμένων που είχαμε στην διάθεσή μας, καθώς
και ο έλεγχος της ακρίβειας και της αποτελεσματικότητας των κατηγοριοποιήσεων μετά από
αρκετές επανεκπαιδεύσεις και χρήσης της εφαρμογής από πραγματικούς χρήστες.
Ημερομηνία κατάθεσης:
2022-03-15
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Νευρωνικά δίκτυα (Επιστήμη των υπολογιστών)
Λέξεις-κλειδιά:
Μηχανική Μάθηση, Εξόρυξη Δεδομένων, Αυτόματη Κατηγοριοποίηση, Εξόρυξη Κειμένων
Περιγραφή:
58 σ.,εικ.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

GEORGIOSGKOLFOPOULOS_.pdf

1 MB