Μελέτη μεγάλων αρχείων δεδομένων και εκπόνηση καθαρισμού αυτών μέσω διαφορετικών framework στην Python

Πτυχιακή Εργασία 26769 101 Αναγνώσεις

Πρωτότυπος Τίτλος:
Μελέτη μεγάλων αρχείων δεδομένων και εκπόνηση καθαρισμού αυτών μέσω διαφορετικών framework στην Python
Συγγραφέας:
Κοντογιάννης, Κωνσταντίνος, Γεώργιος
Επιβλέπων καθηγητής:
Βιόλος, Ιωάννης
Περίληψη:
Στην εποχή μας η ραγδαία αύξηση της ποιότητας και της ποσότητας των τεχνολογικών μέσων
έχει φέρει την επιστήμη των υπολογιστών σε περίοπτη θέση. Όλοι οι επιστημονικοί κλάδοι
πρέπει να πλησιάσουν όσο πιο κοντά γίνεται στην επιστήμη των υπολογιστών για να
αναπτυχθούν πιο γρήγορα και πιο αποτελεσματικά. Αυτό συμβαίνει διότι ένας άνθρωπος
χρησιμοποιεί πολλές ηλεκτρονικές συσκευές μέσα στην μέρα του, γεγονός που έχει ως
αποτέλεσμα την μεγάλη παραγωγή δεδομένων. Το γεγονός αυτό έχει δημιουργήσει την τάση
των μεγάλων δεδομένων, μια φράση που ακούγεται πολύ τα τελευταία πέντε χρόνια. Η
υπερβάλλουσα επιθυμία οργανισμών, εταιρειών και κυβερνήσεων να αναλύσουν όλα αυτά
τα δεδομένα, δημιούργησε την επιστήμη των δεδομένων. Η επιστήμη αυτή δεν αποτελείται
από ένα αντικείμενο εργασιών, αλλά μοιάζει περισσότερο με μια γραμμή παραγωγής ενός
εργοστασίου, η οποία ξεκινάει από την ακατέργαστη πρώτη ύλη και φτάνει στο τελικό
προϊόν. Ίσως το πιο σημαντικό κομμάτι στην επιστήμη των δεδομένων να αποτελεί ο
καθαρισμός δεδομένων ο οποίος δημιουργεί τις βάσεις για μια καλή ανάλυση δεδομένων,
εκμάθηση μοντέλου ή εξόρυξη γνώσης. Ο κύριος στόχος του καθαρισμού των δεδομένων
είναι να παρέχει στο επόμενο βήμα δεδομένα υψηλότερης ποιότητας από αυτά που έλαβε.
Η επιστήμη των δεδομένων βασίζεται στον προγραμματισμό μέσω γλωσσών υψηλού
επιπέδου. Μια από τις πιο γνωστές είναι Python η οποία ταιριάζει πολύ καλά στις
διαδικασίες που εμπεριέχουν επεξεργασία δεδομένων, διότι διαθέτει μεγάλο αριθμό
βιβλιοθηκών που βοηθούν στην διεκπεραίωσή του. Σε αυτήν την εργασία θα γίνει μια
ανάλυση ως προς το καινούργιο πεδίο της επιστήμης των δεδομένων που αφορά στα Big
Data, ενώ θα αναλυθούν διεξοδικά οι ορισμοί της ποιότητας των δεδομένων και της
διαδικασίας καθαρισμού δεδομένων. Τέλος, θα υλοποιηθούν με την σειρά οι εργασίες
καθαρισμού σε ένα σετ δεδομένων, με διαφορετικά modules με σκοπό την σύγκρισή τους.
Ημερομηνία κατάθεσης:
2022-11-04
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Μεγάλα δεδομένα
Λέξεις-κλειδιά:
Πάιθον Βιβλιοθήκες, Καθαρισμός Δεδομένων, Ποιότητα Δεδομένων
Περιγραφή:
113 σ.,εικ.,πίν.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

KonstantinosKontogiannis.pdf

3 MB