Αξιολόγηση της χρήσης Μεγάλων Γλωσσικών Μοντέλων στην ανάλυση ΦΕΚ

Μεταπτυχιακή Εργασία 29990 44 Αναγνώσεις

Πρωτότυπος Τίτλος:
Αξιολόγηση της χρήσης Μεγάλων Γλωσσικών Μοντέλων στην ανάλυση ΦΕΚ
Συγγραφέας:
Γαρυφάλλου, Αντώνιος, Παναγιώτης
Επιβλέπων καθηγητής:
Βαρλάμης, Ηρακλής
Περίληψη:
Η διπλωματική αυτή αφορά την εξαγωγή δομημένων δεδομένων από έγγραφα σε
μορφή PDF, χρησιμοποιώντας μεγάλα γλωσσικά μοντέλα (LLM - Large Language Model).
Συγκεκριμένα, τα έγγραφα που θα αναλυθούν είναι Φ.Ε.Κ (Φύλλο Εφημερίδας της
Κυβερνήσεως), με κύρια εστίαση στην καταγραφή και ανάλυση της νομικής λειτουργίας κάθε
τομέα του κράτους και του τρόπου που αυτός λειτουργεί. Ο στόχος της διπλωματικής είναι να
αποσπαστεί συγκεκριμένη πληροφορία από τα Φ.Ε.Κ, όπως οι διευθύνσεις των δημόσιων
φορέων που αναγράφονται, καθώς και οι αρμοδιότητες που αυτές έχουν. Πιο συγκεκριμένα, η
πληροφορία θα περιλαμβάνει μια σύντομη περιγραφή των αρμοδιοτήτων σε μορφή πρότασης
για κάθε τομέα, καθώς και τον αρμόδιο φορέα, όπως για παράδειγμα ένα τμήμα ή μία
διεύθυνση, που σχετίζεται με την αρμοδιότητα. Η υλοποίηση θα πραγματοποιηθεί με τη
χρήση της γλώσσας προγραμματισμού Python, μέσω ενός script που θα αναλαμβάνει την
επεξεργασία του κειμένου και τη διαχείριση της επικοινωνίας με τα LLM μέσω κλήσεων REST
API. Στην κλήση αυτή, θα αποστέλλεται το πλήρες κείμενο από τα PDF σε μορφή text,
συνοδευόμενο από ένα προσεκτικά διαμορφωμένο prompt που θα περιέχει τις ερωτήσεις ή
εργασίες που πρέπει να επιλύσει το κάθε μοντέλο. Τέλος, τα LLM θα επιστρέφουν τα
δεδομένα σε μορφή JSON, τα οποία θα αποθηκεύονται σε αρχεία κειμένου. Για την
πραγματοποίηση αυτού του έργου, θα υλοποιηθούν διάφορα σενάρια. Στόχος τους είναι, η
ανάδειξη των αποτελεσμάτων ενός LLM μοντέλου στην επεξεργασία αυτού του είδους
κειμένου, καθώς και τις προκλήσεις και τα προβλήματα που τα συνοδεύουν. Το τελικό
αποτέλεσμα θα είναι η σύγκριση των τριών LLM μοντέλων (ChatGPT, Llama 3, Meltemi), που
χρησιμοποιήθηκαν, ως προς την αποδοτικότητα τους να λύσουν το πρόβλημα καθώς και να
ανακαλυφθούν οι αδυναμίες τους.
Ημερομηνία κατάθεσης:
2025-03-10
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Υπολογιστική γλωσσολογία
Λέξεις-κλειδιά:
Αξιολόγηση Μεγάλων Γλωσσικών Μοντέλων, Μεγάλα Γλωσσικά Μοντέλα, ΦΕΚ, εξόρυξη δεδομένων
Περιγραφή:
60 σ.,εικ.,πίν.,σχ.
Άδεια χρήσης:
19426 Αναφορά Δημιουργού – Μη Εμπορική Χρήση 4.0

ANTONIOSGARYFALLOU.pdf

1 MB