Συλλογή και μορφοποίηση δεδομένων από το διαδίκτυο: μια συγκριτική μελέτη των διαθέσιμων Python Frameworks

Πτυχιακή Εργασία 29456 5 Αναγνώσεις

Πρωτότυπος Τίτλος:
Συλλογή και μορφοποίηση δεδομένων από το διαδίκτυο: μια συγκριτική μελέτη των διαθέσιμων Python Frameworks
Συγγραφέας:
Τόσκα, Έλβις, Νικόλα
Επιβλέπων καθηγητής:
Βιόλος, Ιωάννης
Περίληψη:
Σε αυτήν την πτυχιακή θα μελετήσουμε μια σειρά από έννοιες και τεχνολογίες της επιστήμης των δεδομένων που αφορούν την συλλογή, τις τεχνικές εξαγωγής και μορφοποίηση δεδομένων από το διαδίκτυο. Συγκεκριμένα, θα μας απασχολήσουν τεχνικές Web Scraping, Data Parsing, Web Crawling, Data Wrangling και Munging και θα τα μελετήσουμε και θα συγκρίνουμε τα
διαθέσιμα εργαλεία/framework της Python, που τις υλοποιούν. Αρχικά, αυτοί οι όροι είναι συγγενικοί και μέσω της διεθνής επιστημονικής βιβλιογραφίας, θα ορίσουμε και τις πέντε αυτες εννοιες στο πρώτο κεφάλαιο, θα περιγράψουμε τις διαφορές τους και θα αναλύσουμε τις βασικές αρχές, και μηχανισμούς που περιλαμβάνουν. Σε πρώτο στάδιο θα αναλύσουμε τις έννοιες που αφορούν την συλλογή των δεδομένων, με βάση τα διαθέσιμα επιστημονικά βιβλία, άρθρα και περιοδικά. Επιπλέον, γίνεται η ανάλυση των νομικών πλαισίων γύρω απο αυτες τις μεθόδους. Υστερα, τις εννοιες που αφορουν την μορφοποιηση και διαχείριση των δεδομενων. Έπειτα, στο δεύτερο κεφάλαιο, θα παρουσιάσουμε τις σχετικές βιβλιοθήκες της python με σκοπό να αναδείξει τις ανάγκες που καλύπτει το κάθε ένα, τις δυνατότητες αλλα και τα πλεονεκτήματα μέ τα μειονεκτήματα της κάθε βιβλιοθήκης παρέχοντας μια συγκριτική μελέτη των πιο γνωστών βιβλιοθηκών με βάση τα χαρακτηριστικά τους. Αργότερα, στο τρίτο κεφάλαιο, περιλαμβάνεται το πρακτικό μέρος στο οποίο υλοποιούνται σενάρια web scraping με αντίστοιχα python εργαλεία. Η υλοποίηση δεν βασίστηκε σε απλά παραδείγματα, αλλά
εφαρμόζεται σε πραγματικές, ποικίλες και πολύπλοκες πηγές δεδομένων, προκειμένου να προσομοιωθεί η αντιμετώπιση των προκλήσεων της εξαγωγής δεδομένων στον πραγματικό κόσμο, όπου το ένα απο αυτά έχει υλοποιηθεί στα πλαίσια της πρακτικής μου άσκησης, αλλά και την εφαρμογή προηγμένων τεχνικών μορφοποίησης ωστέ να μετατραπούν τα ακατέργαστα δεδομένα χρήσιμα για ανάλυση. Σκοπός της υλοποίησης θα είναι η συγκριση και ενοποίηση των δυνατοτήτων που προσφέρει το κάθε ένα. Στο μεγαλύτερο μέρος της εργασίας θα ασχοληθούμε με την συλλογή και τις μεθόδους εξαγωγής και συμπληρωματικά θα αναλύσουμε και τις μεθόδους μορφοποίησης δεδομένων που έρχεται σε δεύτερο στάδιο.
Ημερομηνία κατάθεσης:
2024-10-15
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Ηλεκτρονική επεξεργασία δεδομένων
Λέξεις-κλειδιά:
Επεξεργασία δεδομένων, Μορφοποίηση δεδομένων, Αυτόματη πλοήγηση ιστοσελίδων, Αυτόματη συλλογή δεδομένων
Περιγραφή:
124 σ.,εικ.,πίν.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

ELVISTOSKA.pdf

8 MB