Περίληψη:
Το πρόβλημα του χαρακτηρισμού της άποψης που μεταφέρει μια φράση ή ένα κείμενο, έχει μεγάλο ερευνητικό και πρακτικό ενδιαφέρον. Ενδιαφέρον το οποίο γίνεται ακόμη πιο έντονο με την έλευση των εφαρμογών κοινωνικής δικτύωσης. Σε αυτές συχνά οι χρήστες εκφράζουν την άποψή τους για ορισμένα προϊόντα, το περιεχόμενο άλλων χρηστών και άλλο συναφές περιεχόμενο, χρησιμοποιώντας σύντομες φράσεις με έντονο όμως σημασιολογικό περιεχόμενο. Αντίστοιχο είναι και το ενδιαφέρον για την ανάλυση του συναισθήματος που μεταφέρουν τα λεγόμενα των χρηστών. Το πρόβλημα της εξόρυξης γνώμης συχνά ανάγεται σε ένα πρόβλημα κατηγοριοποίησης κάθε φράσης ή μέρους αυτής σε προκαθορισμένες κατηγορίες. Οι αλγόριθμοι που έχουν αναπτυχθεί ως τώρα χρησιμοποιούν πρότερη γνώση (κείμενα ή φράσεις που γνωρίζουμε την κατηγορία τους) για την εκπαίδευση του ταξινομητή, και μέτρα ομοιότητας μεταξύ φράσεων ώστε να κατατάξουν τις νέες φράσεις στην καταλληλότερη κατηγορία.
Στόχος της εργασίας είναι να αυτοματοποιήσει τη διαδικασία από την πρώτη φάση της συλλογής των γνωμών μέχρι την τελική αποτύπωσή τους σε συγκεντρωτικά γραφήματα με απώτερο στόχο να διευκολύνει την παρακολούθηση της «κοινής γνώμης», όπως αυτή διατυπώνεται με βαθμολογίες, ποιοτικούς χαρακτηρισμούς κλειστού τύπου (καλό, πολύ καλό, μέτριο κλπ.) ή και ελεύθερο κείμενο. Παράλληλα, μέσα από την εργασία, αναδεικνύεται η όποια απόκλιση υπάρχει μεταξύ της άμεσα διατυπωμένης γνώμης μέσω π.χ. βαθμολογιών (implicit ratings) και της έμμεσης γνώμης που διατυπώνεται με κείμενο και ποσοτικοποιείται με τεχνικές εξόρυξης γνώμης (implicit ratings).
Στα πλαίσια της εργασίας, τα δεδομένα τα οποία επιλέχθηκαν προς εξόρυξη γνώμης, αντλήθηκαν από το διαδικτυακό τόπο IMDb ( http://www.imdb.com/ ), όπου φιλοξενούνται πληροφορίες που αφορούν ταινίες οι οποίες είτε έχουν προβληθεί, είτε θα προβληθούν στους κινηματογράφους. Ο ίδιος δικτυακός τόπος προσφέρει επίσης κριτικές χρηστών για ορισμένες από αυτές τις ταινίες. Οι κριτικές των 250 υψηλότερα βαθμολογημένων, από τους χρήστες ταινιών, αποτελούν το βασικό σύνολο δεδομένων για την εργασία . Με τη χρήση της γλώσσας προγραμματισμού JAVA, υλοποιήθηκε ένας Web crawler ο οποίος επισκέπτεται ιστοσελίδες οι οποίες περιέχουν κριτικές χρηστών για τις παραπάνω ταινίες, αντλεί το περιεχόμενο, δημιουργεί αντικείμενα JAVA, στα οποία καταχωρεί τα δεδομένα, και στη συνέχεια τα αποθηκεύει με τη μορφή αρχείων αντικειμένων στο δίσκο, για κάθε ταινία ξεχωριστά. Στη συνέχεια γίνεται κατηγοριοποίηση των δεδομένων αυτών με τη χρήση ενός αλγορίθμου ταξινόμησης κειμένων που βασίζεται στο Μηχανισμό Διανυσμάτων Υποστήριξης (Support Vector Machines-SVM) και συγκεκριμένα μιας υλοποίησης του αλγορίθμου LibSVM που είναι διαθέσιμη στις βιβλιοθήκες του περιβάλλοντος Weka (http://www.cs.waikato.ac.nz/ml/weka/) και ενσωματώθηκε στην εφαρμογή.
Η πληροφορία που συγκεντρώνεται για κάθε ταινία καθώς και η πληροφορία κατηγοριοποίησης της αποθηκεύεται σε νέα αρχεία αντικείμενων, ενώ εξάγεται και σε αρχεία XML ώστε να είναι πιο εύκολη η επισκόπηση της πληροφορίας κάθε ταινίας.
Όλες οι προηγούμενες λειτουργίες ενσωματώνονται στη συνέχεια σε μια JAVA εφαρμογή, η οποία επιτρέπει στον χρήστη να επιλέξει τον τίτλο ταινίας της αρεσκείας του, να δει την επεξεργασμένη πληροφορία της γνώμης των χρηστών για την συγκεκριμένη ταινία, και να επιλέξει από μια σειρά οπτικοποιήσεων και εναλλακτικών γραφημάτων την πορεία της γνώμης των θεατών για την ταινία μέσα στα χρόνια. Τα γραφήματα, υλοποιούνται με τη χρήση των βιβλιοθηκών JFreeChart (http://www.jfree.org/jfreechart/ ) που είναι γραμμένα σε JAVA και ενσωματώνονται στην εφαρμογή.
Στις συνεισφορές της εργασίας συγκαταλέγονται: α) οι εναλλακτικές μορφές οπτικοποίησης που ενσωματώθηκαν και περιλαμβάνουν τόσο τεχνικές για την αποτύπωση βαθμολογίας και κατηγοριοποιημένης γνώμης, όσο και τεχνικές για την αποτύπωση του περιεχομένου των σχολίων ανά κατηγορία γνώμης, β) η μεθοδολογία η οποία αναπτύχθηκε τόσο για την εξόρυξη γνώμης, η οποία χρησιμοποιεί έναν αλγόριθμο SVM, αλλά μπορεί εύκολα να λειτουργήσει και με περισσότερους αλγορίθμους, γ) η εξαγωγή της πληροφορίας σε αρχεία XML, στα οποία αποθηκεύθηκαν οι γνώμες χρηστών ανά ταινία και τα οποία μπορούν να χρησιμοποιηθούν ως Dataset, για οποιαδήποτε μελλοντική ερευνητική και μη χρήση, δ) η δυνατότητα προσθήκης επιπλέον ταινιών στο σύνολο των αρχικών 250 ταινιών με αυτόματο τρόπο μέσα από την εφαρμογής.