Περίληψη:
Στην εποχή μας η ραγδαία αύξηση της ποιότητας και της ποσότητας των τεχνολογικών μέσων
έχει φέρει την επιστήμη των υπολογιστών σε περίοπτη θέση. Όλοι οι επιστημονικοί κλάδοι
πρέπει να πλησιάσουν όσο πιο κοντά γίνεται στην επιστήμη των υπολογιστών για να
αναπτυχθούν πιο γρήγορα και πιο αποτελεσματικά. Αυτό συμβαίνει διότι ένας άνθρωπος
χρησιμοποιεί πολλές ηλεκτρονικές συσκευές μέσα στην μέρα του, γεγονός που έχει ως
αποτέλεσμα την μεγάλη παραγωγή δεδομένων. Το γεγονός αυτό έχει δημιουργήσει την τάση
των μεγάλων δεδομένων, μια φράση που ακούγεται πολύ τα τελευταία πέντε χρόνια. Η
υπερβάλλουσα επιθυμία οργανισμών, εταιρειών και κυβερνήσεων να αναλύσουν όλα αυτά
τα δεδομένα, δημιούργησε την επιστήμη των δεδομένων. Η επιστήμη αυτή δεν αποτελείται
από ένα αντικείμενο εργασιών, αλλά μοιάζει περισσότερο με μια γραμμή παραγωγής ενός
εργοστασίου, η οποία ξεκινάει από την ακατέργαστη πρώτη ύλη και φτάνει στο τελικό
προϊόν. Ίσως το πιο σημαντικό κομμάτι στην επιστήμη των δεδομένων να αποτελεί ο
καθαρισμός δεδομένων ο οποίος δημιουργεί τις βάσεις για μια καλή ανάλυση δεδομένων,
εκμάθηση μοντέλου ή εξόρυξη γνώσης. Ο κύριος στόχος του καθαρισμού των δεδομένων
είναι να παρέχει στο επόμενο βήμα δεδομένα υψηλότερης ποιότητας από αυτά που έλαβε.
Η επιστήμη των δεδομένων βασίζεται στον προγραμματισμό μέσω γλωσσών υψηλού
επιπέδου. Μια από τις πιο γνωστές είναι Python η οποία ταιριάζει πολύ καλά στις
διαδικασίες που εμπεριέχουν επεξεργασία δεδομένων, διότι διαθέτει μεγάλο αριθμό
βιβλιοθηκών που βοηθούν στην διεκπεραίωσή του. Σε αυτήν την εργασία θα γίνει μια
ανάλυση ως προς το καινούργιο πεδίο της επιστήμης των δεδομένων που αφορά στα Big
Data, ενώ θα αναλυθούν διεξοδικά οι ορισμοί της ποιότητας των δεδομένων και της
διαδικασίας καθαρισμού δεδομένων. Τέλος, θα υλοποιηθούν με την σειρά οι εργασίες
καθαρισμού σε ένα σετ δεδομένων, με διαφορετικά modules με σκοπό την σύγκρισή τους.