Εξαγωγή ορολογίας και νεολογισμών από μεγάλα σώματα κειμένων

Πτυχιακή Εργασία 19734 154 Αναγνώσεις

Πρωτότυπος Τίτλος:
Εξαγωγή ορολογίας και νεολογισμών από μεγάλα σώματα κειμένων
Συγγραφέας:
Πετσόπουλος, Τηλέμαχος Θ.
Επιβλέπων καθηγητής:
Βαρλάμης, Ηρακλής
Περίληψη:
Σκοπός της παρούσας εργασίας είναι η μελέτη και η βελτίωση της
διαδικασίας που ακολουθείται από το Κέντρο Ερεύνης Επιστημονικών Όρων και Νεολογισμών της Ακαδημίας Αθηνών για την εξαγωγή ορολογίας και νεολογισμών απόμεγάλα σώματα κειμένων.
Συγκεκριμένα γίνεται επέκταση υπάρχουσας
εφαρμογής η οποία χρησιμοποιείται από το κέντρο για τον εντοπισμό νεολογισμών
(νέων λέξεων) της Ελληνικής γλώσσας.
Η επέκταση εστιάζει στην αυτοματοποίηση
της διαδικασίας εντοπισμού υποψήφιων νεολογισμών και εξαγωγής στατιστικών
στοιχείων για τους όρους που επιλέγονται,
το οποίο πετυχαίνεται
με τεχνικές
ομαδοποίησης των δεδομένων και καταγράφοντας τις
εμφανίσεις των
υποψήφιων
λέξεων όπως αυτές εισάγονται και αναλύονται από την προαναφερθείσα
εφαρμογή.
Επιπλέον μελετά θέματα που αφορούν την εξαγωγή μεταδεδομένων για τα
κείμενα που αναλύονται.
Σε αυτό το σημείο δίνεται βάση στην δημιουργία ενός
μοντέλου μηχανικής μάθησης χρησιμοποιώντας τεχνικές εξόρυξης δεδομένων το
οποίο θα χωρίζει σε
παραπάνω απόμία θεματικές
Κατηγορίες (multi-labelclassification)
τα κείμενα που εισάγονται με αποτέλεσμα την ύπαρξη ενός σωστά
διαχωρισμένου corpus.
Επίσης διερευνά την δυνατότητα εξαγωγής επιστημονικής
ορολογίας (ξενόγλωσσων όρων) και των αντίστοιχων όρων με τους οποίους
αποδίδονται σε Ελληνικά ακαδημαϊκά συγγράμματα με στόχο την δημιουργία ενός
λεξικού επιστημονικής ορολογίας. Τέλος, η συγκεκριμένη εργασία παραθέτει τις εξελίξεις στον τομέα της εύρεσης νεολογισμών, τις τεχνικές, τα εργαλεία που χρησιμοποιούνται διεθνώς καιμερικές καλές πρακτικές από αντίστοιχα ερευνητικά κέντρα του εξωτερικού.
Ημερομηνία κατάθεσης:
2017-10-04
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Τεχνολογία της πληροφορίας
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Μηχανική μάθηση
Εξόρυξη δεδομένων
Επεξεργασία φυσικής γλώσσας (Επιστήμη των υπολογιστών)
Λέξεις-κλειδιά:
νεολογισμός, μηχανική μάθηση, κατηγοριοποίηση, εξόρυξη δεδομένων, επεξεργασία φυσικής γλώσσας
Περιγραφή:
70 σ. : εικ., πίν., σχ.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

Petsopoulos_IT_17.pdf

2 MB