Περίληψη:
Δεδομένου ότι στις μέρες μας, η συνεχής ανάπτυξη του Παγκόσμιου Ιστού είναι ραγδαία έχει ως αποτέλεσμα μια πληθώρα άρθρων να δημοσιεύεται καθημερινά. Θα ήταν άκρως ιδανικό, λοιπόν, αν μπορούσε κάποιος να προβλέψει τη δημοτικότητα ενός άρθρου, πριν ακόμη αυτό δημοσιευθεί. Αυτό το ερώτημα προσπαθήσαμε να απαντήσουμε και σε αυτή τη μελέτη: κατά πόσο υπάρχουν χαρακτηριστικά, τα οποία θα μπορούσαν να κρίνουν τη δημοτικότητά του άρθρου.
Για να επιτευχθεί αυτό, χρησιμοποιήθηκε ένα dataset 40.000 περίπου άρθρων τα οποία προερχόντουσαν από το Mashable.com και αφορούσαν τη περίοδο 2 χρόνων. Αυτά τα άρθρα, πέρα από το μεγάλο όγκο τους, είχαν και πάρα πολλά χαρακτηριστικά, συγκεκριμένα 61. Χρειάστηκε, λοιπόν, να πραγματοποιηθεί μια επεξεργασία ώστε να μειωθούν οι εγγραφές. Έπειτα, δημιουργήθηκαν 3 μοντέλα: ένα στο οποίο εφαρμοζόντουσαν οι αλγόριθμοι σε όλο το σύνολο και δυο ακόμη τα οποία χρησιμοποιούσαν διαφορετικό τρόπο μείωσης των γνωρισμάτων, είτε με PCA είτε με βάση το Information Gain.
Οι αλγόριθμοι που χρησιμοποιήθηκαν ήταν οι: kNN, Neural Nets και Naïve Bayes. Αυτό που παρατηρήσαμε είναι ότι ο kNN, λειτουργεί καλύτερα όταν επιλεγόταν η μέθοδος του PCA, σε αντίθεση με τον Naïve Bayes και τα Neural Nets που είχαν καλύτερα αποτελέσματα στο μοντέλο στο οποίο χρησιμοποιήθηκε το Information Gain.