Ανάπτυξη αλγορίθμων εξόρυξης γνώσης από κείμενα στην πλατφόρμα Spark

Πτυχιακή Εργασία 17407 248 Αναγνώσεις

Πρωτότυπος Τίτλος:
Ανάπτυξη αλγορίθμων εξόρυξης γνώσης από κείμενα στην πλατφόρμα Spark
Συγγραφέας:
Κοντόπουλος, Ιωάννης, Νικόλαος
Επιβλέπων καθηγητής:
Βαρλάμης, Ηρακλής
Περίληψη:
Ο όγκος δεδομένων συνεχώς αυξάνεται, συνεπώς είναι αναγκαίο να αναπτυχθούν τρόποι εξαγωγής ή εξόρυξης γνώσης από αυτά. Ένας τομέας που είναι απαραίτητη η εξόρυξη γνώσης είναι η επεξεργασία φυσική γλώσσα. Στον τομέα αυτόν έχουν αναπτυχθεί πολλές μεθοδολογίες και μία εξ αυτών είναι η επεξεργασία κειμένων με τη χρήση των γράφων ν-γραμμάτων, οι οποίοι έχουν αποδειχθεί αποτελεσματικοί σε προβλήματα κατηγοριοποίησης ή ομαδοποίησης. Σε αυτήν την πτυχιακή χρησιμοποιήθηκαν αυτοί οι γράφοι για να εξαχθούν περιλήψεις από πολλά κείμενα, κάτι που είναι σημαντικό όταν θέλουμε να καταλάβουμε με λίγα λόγια τι περιγράφει ο τεράστιος όγκος των κειμένων που υπάρχουν σήμερα. Επίσης, χρησιμοποιήθηκαν τεχνικές οι οποίες μπόρεσαν να κατανεμηθούν σε πολλούς υπολογιστές ή πυρήνες, έτσι ώστε ο χρόνος εξαγωγής των περιλήψεων να μειωθεί στο ελάχιστο. Για την υλοποίηση των παράλληλων τεχνικών αυτών χρησιμοποιήθηκε η πλατφόρμα Apache Spark με τη γλώσσα συναρτησιακού προγραμματισμού Scala. Μετά την υλοποίηση της μεθοδολογίας για εξαγωγή περιλήψεων έγιναν πειράματα με σκοπό να δείξουν πως μειώνεται ο χρόνος εκτέλεσης όταν αυξάνεται ο αριθμός των πυρήνων που χρησιμοποιείται. Τα πειράματα έδειξαν ότι όντως το πρόβλημα παραλληλοποιήθηκε επιτυχώς και ότι η εφαρμογή που αναπτύχθηκε στα πλαίσια αυτής της πτυχιακής αποδίδει καλύτερα με τη χρήση πολλών πυρήνων. Τέλος, τα πειράματα έδειξαν επίσης ότι για να μπορέσουν οι περισσότεροι πυρήνες να μειώσουν τον χρόνο εκτέλεσης θα πρέπει τα κείμενα να είναι τεράστια και να ελλαποτελούνται από πολλές προτάσεις.
Ημερομηνία κατάθεσης:
2016-07-12
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Τεχνολογία της πληροφορίας
Λέξεις-κλειδιά:
Κατανεμημένη Επεξεργασία, Εξόρυξη Δεδομένων, Γράφοι, Επεξεργασία Φυσικής Γλώσσας, Αλγόριθμοι
Περιγραφή:
46 σ., εικ.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

thesis.pdf

1 MB