Εξαγωγή πληροφοριών από μεγάλα κείμενα με χρήση LLM

Πτυχιακή Εργασία 30295 4 Αναγνώσεις

Πρωτότυπος Τίτλος:
Εξαγωγή πληροφοριών από μεγάλα κείμενα με χρήση LLM
Συγγραφέας:
Αναστασόπουλος, Ορέστης, Σαμψών
Επιβλέπων καθηγητής:
Βαρλάμης, Ηρακλής
Περίληψη:
Η παρούσα πτυχιακή εργασία διερευνά τη χρήση των Μεγάλων Γλωσσικών Μοντέλων (LLMs)
για την εξαγωγή πληροφοριών από μεγάλα και μη δομημένα κείμενα, εστιάζοντας στην
αξιοποίησή τους για την ανάλυση εταιρικών αναφορών, επιστημονικών εγγράφων και άλλων
πηγών δεδομένων. Τα LLMs, χάρη στην ικανότητά τους να κατανοούν και να επεξεργάζονται τη
φυσική γλώσσα, παρέχουν έναν αυτοματοποιημένο τρόπο για την ανάλυση και οργάνωση
μεγάλου όγκου πληροφοριών.
Η μεθοδολογία που ακολουθήθηκε περιλαμβάνει βιβλιογραφική ανασκόπηση, επιλογή
κατάλληλων εργαλείων και πειραματική αξιολόγηση. Για την υλοποίηση, χρησιμοποιήθηκαν
σύγχρονες βιβλιοθήκες NLP (PyTorch, Pandas), καθώς και εξειδικευμένα εργαλεία όπως το LM
Studio και το Ollama. Το προτεινόμενο σύστημα βασίζεται στην αρχιτεκτονική ETL (Extract,
Transform, Load), όπου τα δεδομένα εξάγονται από PDF, μετατρέπονται σε οργανωμένη
πληροφορία και αποθηκεύονται σε δομημένη μορφή για περαιτέρω ανάλυση.
Τα αποτελέσματα δείχνουν ότι τα LLMs μπορούν να βελτιώσουν σημαντικά την ακρίβεια και
την ταχύτητα της εξαγωγής δεδομένων, επιτρέποντας την αυτόματη αναγνώριση οντοτήτων,
τη σύνοψη κειμένων και τη δημιουργία δομημένων πληροφοριών από μη επεξεργασμένα
δεδομένα. Ωστόσο, εντοπίστηκαν προκλήσεις, όπως το υψηλό υπολογιστικό κόστος, η ανάγκη
για υψηλή υπολογιστική ισχύς και οι δυσκολίες διαχείρισης σύνθετων γλωσσικών δομών.
Συμπερασματικά, η εργασία επισημαίνει ότι η χρήση των LLMs αποτελεί ένα ισχυρό εργαλείο
για την αυτοματοποίηση της ανάλυσης μη δομημένων δεδομένων,με εφαρμογή σε διάφορους
κλάδους, όπως η ανάλυση επιχειρηματικών αναφορών και η επιστημονική έρευνα. Παρόλα
αυτά, απαιτούνται περαιτέρω έρευνες για τη βελτίωση της ακρίβειας και της απόδοσής τους
σε εξειδικευμένα σύνολα δεδομένων.
Ημερομηνία κατάθεσης:
2025-03-19
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Υπολογιστική γλωσσολογία
Λέξεις-κλειδιά:
επεξεργασία φυσικής γλώσσας, Μεγάλα Γλωσσικά Μοντέλα, Αυτόματη Ανάλυση Κειμένου, Εξαγωγή πληροφοριών
Περιγραφή:
54 σ.,εικ.,πίν.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

ORESTISANASTASOPOULOS.pdf

1 MB