Ανάλυση ευρωστίας αλγορίθμων ενισχυτικής μάθησης σε περιβάλλοντα με αλλοιώσεις

Μεταπτυχιακή Εργασία 29503 4 Αναγνώσεις

Πρωτότυπος Τίτλος:
Ανάλυση ευρωστίας αλγορίθμων ενισχυτικής μάθησης σε περιβάλλοντα με αλλοιώσεις
Συγγραφέας:
Τσαουσίδου, Μαρία, Θεόδωρος
Επιβλέπων καθηγητής:
Δίου, Χρήστος
Περίληψη:
Η παρούσα διπλωματική εργασία έχει σκοπό να αξιολογήσει την ευρωστία και να συγκρίνει την απόδοση διαφόρων αλγορίθμων ενισχυτικής μάθησης (Reinforcement Learning - RL) σε προσομοιώσεις ρομποτικών περιβαλλόντων, με στόχο την ανάπτυξη και εφαρμογή προηγμένων τεχνικών αυτοματοποιημένου ελέγχου.
Το αντικείμενο της εργασίας επικεντρώθηκε στη χρήση του Gymnasium (πρώην OpenAI Gym), μιας δημοφιλούς βιβλιοθήκης για προσομοιώσεις RL, και στην εφαρμογή της σε ρομποτικούς βραχίονες. Οι αλγόριθμοι που εξετάστηκαν περιλαμβάνουν τους Deep Q Networks (DQN), Policy Gradient Methods (PG), Proximal Policy Optimization (PPO), Advantage Actor-Critic (A2C), Asynchronous Advantage Actor-Critic (A3C) και Importance Weighted Actor-Learner Architecture (IMPALA).
Η μεθοδολογία περιλάμβανε την προσομοίωση διαφόρων περιβαλλόντων (Acrobot, Cart Pole, Lunar Lander) και την εφαρμογή αλλοιώσεων για να αξιολογηθεί η ανθεκτικότητα των αλγορίθμων σε ασταθή περιβάλλοντα. Η πειραματική διαδικασία περιλάμβανε την εκπαίδευση και την αξιολόγηση των αλγορίθμων με βάση μετρικές όπως η μέση ανταμοιβή ανά επεισόδιο, η απώλεια πολιτικής, η απώλεια συνάρτησης αξίας και η εντροπία.
Τα κυριότερα αποτελέσματα δείχνουν ότι οι αλγόριθμοι RL μπορούν να επιτύχουν καλή απόδοση σε σταθερά περιβάλλοντα, με τον PPO να εμφανίζει τη μικρότερη ευαισθησία στις αλλοιώσεις, ενώ ο DQN επηρεάζεται περισσότερο. Η εφαρμογή αλλοιώσεων όπως η προσομοίωση ανέμου και το σβήσιμο αισθητήρων επηρεάζει σημαντικά την απόδοση των αλγορίθμων, υποδεικνύοντας την ανάγκη για πιο ανθεκτικούς αλγορίθμους RL σε πραγματικά περιβάλλοντα.
Η μελέτη αυτή συμβάλλει στην κατανόηση της συμπεριφοράς των αλγορίθμων RL σε διαφορετικές συνθήκες και καθοδηγεί την επιλογή κατάλληλων αλγορίθμων για συγκεκριμένες εφαρμογές ρομποτικής, προωθώντας την ανάπτυξη πιο ευφυών και ανθεκτικών ρομποτικών συστημάτων.
Ημερομηνία κατάθεσης:
2024-10-21
Γλώσσες Τεκμηρίου:
Ελληνικά
Θεματικές Κατηγορίες:
Ηλεκτρονικοί υπολογιστές. Επιστήμη των υπολογιστών
Λοιπά Θέματα:
Προσομοίωση, Μέθοδοι της
Αλγόριθμοι - Επεξεργασία δεδομένων
Λέξεις-κλειδιά:
Ενισχυτική μάθηση, Προσαρμοστικότητα, Τεχνητή Νοημοσύνη, Αλγόριθμοι Μηχανικής Μάθησης, Προσομοίωση Ρομποτικών Περιβαλλόντων
Περιγραφή:
104 σ.,εικ.,πίν.,διαγρ.,σχ.
Άδεια χρήσης:
19429 Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0

MARIATSAOUSIDOU.pdf

2 MB