Περίληψη:
Η παρούσα εργασία ασχολείται με τον τομέα του Sentiment Analysis, σε μία προσπάθεια να αναδείξει έναν ή περισσότερους συνδυασμούς μεθόδων επεξεργασίας φυσικού λόγου και αλγορίθμων μηχανικής μάθησης, οι οποίοι θα προσφέρουν δυνατότητες κατηγοριοποίησης διαφόρων πηγών απόψεων για ένα συγκεκριμένο θέμα. Στην παρούσα εργασία θα αναλυθούν οι μέθοδοι επεξεργασίας φυσικού λόγου Bag of Words, N-Grams και N-Gram Graphs, και με τη βοήθεια της ανοιχτής βιβλιοθήκης της Weka, οι αλγόριθμοι μηχανικής μάθησης C4.5, Naïve Bayesian Networks, Support Vector Machines, Logistic Regression, Multilayer Perceptrons, Best-First Trees και Functional Trees. Σκοπός είναι να ανακαλυφθεί ένας συνδυασμός με αρκετά υψηλή απόδοση, έτσι ώστε να μπορέσει να παραχθεί ένα αξιόπιστο, σε βάθος χρόνου μοντέλο πρόβλεψης της κοινής γνώμης απέναντι σε συγκεκριμένα θέματα. Αυτά τα θέματα στην παρούσα έρευνα θα είναι παράμετροι κάποιας πολιτικής αλλά πρακτικά δεν υπάρχει κάποια σύνδεση μεταξύ του θέματος προς ανάλυση με τον αλγόριθμο που τον αναλύει. Η μόνη τους σύνδεση είναι μέσω των δεδομένων τα οποία θα αναλύει ο αλγόριθμος και θα επιλέγονται με βάση το θέμα που προσπαθούμε να αναλύσουμε.
Λέξεις-κλειδιά:
Εξόρυξη δεδομένων, Μηχανική μάθηση, Ανάλυση απόψεων, Μοντέλο πρόβλεψης