Αυτόματη εξαγωγή και διαχείριση περιεχομένου από ειδησεογραφικά site

Πτυχιακή Εργασία 14819
Πρωτότυπος Τίτλος:
Αυτόματη εξαγωγή και διαχείριση περιεχομένου από ειδησεογραφικά site
Συγγραφέας:
Χαράτσεβ, Φίλιππος
Επιβλέπων καθηγητής:
Βαρλάμης, Ηρακλής
Περίληψη:
Η πληθώρα ειδησεογραφικών πηγών και η ανάγκη της αγοράς για ανάλυση ειδήσεων σε μεγάλη κλίμακα, έχει καταστήσει αναγκαία την ύπαρξη μηχανισμών που θα συγκεντρώνουν πληροφορία από ειδησεογραφικές πηγές ελαχιστοποιώντας την ανθρώπινη παρέμβαση. Ταυτόχρονα καθιστά πλέον επιτακτική την ολοκλήρωση επιμέρους εργαλείων ανάλυσης και επεξεργασίας κειμένων σε μια ενιαία πλατφόρμα που θα στοχεύει στον τελικό χρήστη αποκρύβοντας τις επιμέρους λεπτομέρειες. Στόχος είναι να σχεδιάσει και να υλοποιήσει έναν μηχανισμό ο οποίος θα υποστηρίζει αλγορίθμους που θα εντοπίζουν περιεχόμενο ενδιαφέροντος σε ειδησεογραφικά site ,αλλά και γενικότερα site το οποία περιέχουν κείμενο γραμμένο από χρήστες αυτών, και θα δημιουργούν με αυτόματο τρόπο μηχανισμούς εξαγωγής και κατηγοριοποίησης συναισθήματος από κείμενα γραμμένα σε φυσική γλώσσα. Στη συνέχεια θα οργανώνουν και αναλύουν τη συγκεντρωμένη πληροφορία και θα οπτικοποιούν την παραγόμενη γνώση. Στα πλαίσια της παρούσας εργασίας σχεδιάζεται ένα γενικότερο πλαίσιο διεπαφών με τη χρήση Java Interfaces, το οποίο ορίζει ένα ευέλικτο περιβάλλον εξαγωγής, ανάλυσης και οπτικοποίησης γνώσης. Η αρχιτεκτονική του συστήματος ορίζεται ούτως ώστε να δίνεται η δυνατότητα προσαρμογής του συστήματος σε διαφορετικές ανάγκες μέσω χρήσης διαφορετικών μορφωμάτων κώδικα για κάθε στάδιο της εξαγωγής γνώσης, όπως και διαφορετικούς συνδυασμούς αυτών. Η υλοποίηση των διεπαφών τις οποίες ορίζει το πλαίσιο, από εξωτερικές βιβλιοθήκες οι οποίες έχουν δημιουργηθεί με σκοπό την επίλυση των προβλημάτων που προκύπτουν από το κάθε στάδιο ανάλυσης και εξαγωγής γνώσης, επιτρέπουν ουσιαστικά στη δημιουργία ενός μεγάλου εύρους διαφορετικών προσεγγίσεων ως προς την επίλυση ενός προβλήματος. Δίνεται επίσης η δυνατότητα σύγκρισης των αποτελεσμάτων τα οποία προκύπτουν. Δημιουργείται μια ενδεικτική υλοποίηση κάθε σταδίου του πλαισίου, ώστε να αποδειχθεί η αποτελεσματικότητα του σχεδιασμού, και μέσω του processing pipeline που ορίζεται, συνδυάζονται και δημιουργούν ένα ολοκληρωμένο σύστημα γνώσης. Για την υλοποίηση κάθε σταδίου αξιοποιούνται βιβλιοθήκες η οποίες παρέχονται δωρεάν στο διαδίκτυο. Μέσω της διαδικασίας δημιουργίας μια ολοκληρωμένης υλοποίησης παράγονται αρχεία με κατηγοριοποιημένη πληροφορία, η οποία μπορεί να αξιοποιηθεί οποιαδήποτε στιγμή ώστε να οπτικοποιηθεί το αποτέλεσμα δίχως την ανάγκη εκ νέου συλλογής και κατηγοριοποίησης των δεδομένων.
Ημερομηνία κατάθεσης:
2014-07-08
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Επιστήμες
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Τεχνολογία
Τεχνολογία της πληροφορίας
Λέξεις-κλειδιά:
διαχείριση περιεχομένου, ειδησεογραφικά site
Περιγραφή:
44 σ., εικ., διαγρ.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

Haratsev_PtyPlitTil_14.pdf

553 KB