Πρωτότυπος Τίτλος:
Aνάλυση Κειμένου και Εξαγωγή Γνώσης απο Πηγές Ψηφιακής Διακυβέρνησης
Συγγραφέας:
Βενέτη, Ισμήνη, Κωνσταντίνος
Επιβλέπων καθηγητής:
Καραγιώργου, Σοφία
Περίληψη:
Σε αυτή την εποχή της πληροφορίας που διανύουμε, οι άνθρωποι μαθαίνουν συνεχώς για νέες
τεχνολογιές, τις οποίες ενσωματώνουν σταδιακά στις ζωές τους. Ιδέες όπως η ανοιχτή γνώση είναι
πλέον διαδεδομένες, με τη χρήση του παγκόσμιου ιστού σαν βάση για την διασπορά τους. Οι
κυβρενήσεις έχουν αρχίσει να το καταλαβαίνουν και εχουν ξεκινήσει να ανοίγουν τα δεδομένα
τους στο κοινό χρησιμοποιώντας την πλατφόρμα του διαδικτύου.
Η Ελληνική Κυβέρνηση δημιούργησε το Πρόγραμμα Διαύγεια, ένα API το οποίο περιέχει
διοικητικές πράξεις και αποφάσεις για πάνω από τρεις χιλιάδες κυβερνητικά και διοικητικά όργανα,
επικυρώνοντας τις πλέον με την υποβολή τους στο διαδίκτυο. Αποφασίσαμε να χρησιμοποιήσουμε
τη Διαύγεια για να δημιουργήσουμε μία αλληλουχία εκτέλεσης (pipeline) με την χρήση της Επεξεργασίας
της Φυσικής Γλώσσας (NLP), και συγκεκριμένα την Αναγνώριση Ονομαστικών Οντοτήτων (NER)
για να απεικονίσουμε τις χρηματικές συναλλαγές σε σύγκριση με διαφορετικά στοιχεία. Τα στοιχεία
αυτά τα βρίσκουμε στα δεδομένα του κάθε αντικειμένου στο JSON API της Διαύγειας.
Λόγω της φύσης των ονομαστικών οντοτήτων σε κυβερνητικές αποφάσεις, καθώς και την
έλλειψη επισειωμένων δεδομένων (annotated data) στην Ελληνική γλώσσα, δημιουργήσαμε ενα
δικό μας σύνολο δεδομένων (dataset), το οποίο περιείχε 400 κείμενα, χρησιμοποιώντας το εργαλείο
ετικετοποίησης doccano. Χρησιμοποιήσαμε το προαναφερθεν σύνολο δεδομένων σε συνδυασμό
με το ήδη υπάρχον για να εκπαιδεύσουμε ένα μοντέλο στην βιβλιοθήκη spaCy, με την οποία
υλοποιήσαμε στη συνέχεια το κομμάτι της αναγνώρισης ονομαστικών οντοτήτων αυτού του έργου.
Τα δεδομένα συναλλαγών που εξήχθηκαν αποθηκεύτηκαν τοπικά σε ένα αρχείο, και στη συνέχεια
ανακτήθηκαν για να δημιουργήσουν διαφορετικά διαγράμματα ράβδων, συγκρίνοντας τις ημερομηνίες
που αποφασίστηκαν οι πράξεις, τις ημερομηνίες υποβολής, όπως και τους τύπους των πράξεων.
Αυτό μας επέτρεψε να δούμε τις συναλλαγές όχι ως μία συλλογή διαφορετικών αποφάσεων, αλλα
ώς ένα υπολογισμένο αποτέλεμα, συσχετίζοντας το με διαφορετικά στοιχεία των πράξεων. Σαν
έργο μας επιτρέπει να βελτιώσουμε την διαφάνεια του Προγράμματος Διαύγεια και βοηθάει στη
διάδοση των πληροφοριών που μας προσφέρει το ίδιο το κράτος.
Ημερομηνία κατάθεσης:
2021-03-30
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Εξόρυξη δεδομένων
Εφαρμογές, εργαλεία, κλπ.
Λέξεις-κλειδιά:
Πρόγραμμα Διαύγεια, Επεξεργασία Φυσικής Γλώσσας, Ελληνική Γλώσσα, Αναγνώριση Ονοματικών Οντοτήτων, Μηχανική Μάθηση
Περιγραφή:
51 σ.,εικ.,πίν.,διαγρ.,σχ.
Άδεια χρήσης:

Αναφορά Δημιουργού – Μη Εμπορική Χρήση 4.0