Ανάπτυξη Πρακτόρων Ενισχυτικής Μάθησης Σε Τρισδιάστατα Εικονικά Περιβάλλοντα

Πτυχιακή Εργασία 22330
Πρωτότυπος Τίτλος:
Ανάπτυξη Πρακτόρων Ενισχυτικής Μάθησης Σε Τρισδιάστατα Εικονικά Περιβάλλοντα
Συγγραφέας:
Κρητικός, Αλέξανδρος, Θεόδωρος
Επιβλέπων καθηγητής:
Καραγιώργου, Σοφία
Περίληψη:
Η σχεδίαση και υλοποίηση έξυπνων και αυτόνομων πρακτόρων Τεχνητής Νοημοσύνης, και ιδιαίτερα όσων αξιοποιούν τη Μηχανική Μάθηση (Machine Learning), αποτελεί μια σημαντική δοκιμασία για όσους τους ενδιαφέρει το γνωστικό αυτό πεδίο. Προαπαιτεί γνώσεις από διάφορους τομείς της Επιστήμης των Υπολογιστών, όπως είναι για παράδειγμα ο τομέας των Πιθανοτήτων και της Στατιστικής, ενώ στην παρούσα περίπτωση γίνονται σημαντικές αναφορές στην έννοια του Δυναμικού Προγραμματισμού.
Η παρούσα εργασία περιλαμβάνει την ανάλυση του χώρου καταστάσεων, των ενεργειών και άλλων μετρήσεων που αποτελούν ένα τρισδιάστατο περιβάλλον, πιο στοχευμένα το εικονικό τρισδιάστατο περιβάλλον του ηλεκτρονικού παιχνιδιού Doom (1993), ενώ επιδεικνύει τη χρήση σύγχρονων αλγορίθμων που ανήκουν στην υποκατηγορία της Μηχανικής Μάθησης που ονομάζεται Ενισχυτική Μάθηση (Reinforcement Learning). Γίνεται αξιοποίηση της πλατφόρμας μηχανικής μάθησης Tensorflow, καθώς και του Keras API που τρέχει πάνω από την πλατφόρμα αυτή και αποτελεί το πλέον δημοφιλέστερο abstraction API για υλοποιήσεις βαθιών νευρωνικών δικτύων (deep neural networks). Για το πρόβλημα το οποίο διερευνά η συγκεκριμένη εργασία, εφαρμόζονται τεχνικές που αξιοποιούν Deep-Q-Networks. Η παροχή του περιβάλλοντος, το οποίο τροφοδοτεί το πρακτορικό σύστημα με πληροφορίες για το χώρο, την κατάσταση της τρέχουσας συνεδρίας παιχνιδιού και την αξία των ενεργειών του συστήματος, γίνεται μέσω της πλατφόρμας ViZDoom (Kempka et al. 2016).
Όπως είναι λογικό, ο χώρος καταστάσεων στα τρισδιάστατα περιβάλλοντα ηλεκτρονικών βιντεοπαιχνιδιών μπορεί να κριθεί μη μετρήσιμος. Αυτό έχει ως αποτέλεσμα την αυξημένη πολυπλοκότητα στους υπολογισμούς που επιχειρούν τα πρακτορικά συστήματα ενισχυτικής μάθησης, ώστε να μπορέσουν να προχωρήσουν στην εξαγωγή αποφάσεων για την καταλληλότερη ενέργεια που απαιτείται σε κάθε δεδομένη κατάσταση. Οι προαναφερθείσες τεχνικές επιχειρούν να βελτιώσουν την απόδοση στην επεξεργασία τέτοιων περιβαλλόντων από πρακτορικά συστήματα, όπως επίσης και την κρίση τους για την εξαγωγή των κατάλληλων κινήσεων. Στο τέλος, αυτό που καταλήγουν να κάνουν τα συστήματα αυτά είναι η επίτευξη στόχων, όμοιων με εκείνους που επιδιώκει ένας άνθρωπος κατά την ενασχόληση του με τα ανταγωνιστικά βιντεοπαιχνίδια, δηλαδή την προσωπική επιτυχία ή την νίκη του παίκτη.
Ημερομηνία κατάθεσης:
2019-10-07
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Τεχνητή νοημοσύνη
Μηχανική μάθηση
Λέξεις-κλειδιά:
Ενισχυτική μάθηση, Τρισδιάστατα περιβάλλοντα
Περιγραφή:
77 σ.:εικ.,πίν.,διαγρ.,σχ.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

AlexandrosKritikos.pdf

2 MB