Please use this identifier to cite or link to this item: http://hdl.handle.net/10889/14032
Title: Ανάπτυξη αλγορίθμου βαθιάς ενισχυτικής μάθησης στο παιχνίδι MsPacman της πλατφόρμας Atari
Other Titles: Development of deep reinforcement learning algorithm in Atari's game, MsPacman
Authors: Καραμπίνης, Ιωάννης
Keywords: Μηχανική μάθηση
Ενισχυτική μάθηση
Νευρωνικά δίκτυα
Βαθιά ενισχυτική μάθηση
Παιχνίδια
Keywords (translated): Machine learning
Reinforcement learning
Neural networks
Deep reinforcement learning
Games
Abstract: Η παρούσα διπλωματική εργασία πραγματεύεται την ανάπτυξη αλγορίθμου βαθιάς ενισχυτικής μάθησης σε περιβάλλον παιχνιδιού. Στο πέρασμα των χρόνων, η τεχνολογική κοινότητα επιδιώκει να εντάξει τη συμπεριφορά των ζωντανών οργανισμών, η οποία μεταβάλλεται κατά τη διάρκεια της ζωής τους μέσω της εκπαίδευσης, στα διάφορα τεχνολογικά επιτεύγματα. Ο χώρος της μηχανικής μάθησης και ειδικότερα της ενισχυτικής μάθησης, βασιζόμενος στο παραπάνω δόγμα, δημιουργεί πράκτορες οι οποίοι δύναται να μαθαίνουν διαμέσου της συνεχούς αλληλεπίδρασης με το περιβάλλον. Ωστόσο, τα σύγχρονα προβλήματα εξαιτίας της μεγάλης πολυπλοκότητάς τους, έχουν θεσπίσει ορισμένους περιορισμούς ως προς την εφαρμογή των αλγορίθμων της ενισχυτικής μάθησης. Η λύση δίδεται μέσω της μίμησης ενός βιολογικού μηχανισμού, των νευρωνικών δικτύων. Η αποτελεσματική εφαρμογή τους σε προβλήματα μεγάλης διαστασιμότητας του ευρύτερου χώρου της τεχνητής νοημοσύνης οδήγησε στην ενσωμάτωσή τους στους αλγορίθμους ενισχυτικής μάθησης. Δημιουργήθηκε με αυτόν τον τρόπο ένα νέο επιστημονικό πεδίο, αυτό της βαθιάς ενισχυτικής μάθησης. Στα πλαίσια της εργασίας υλοποιήθηκαν παραλλαγές των αλγορίθμων βαθιάς ενισχυτικής μάθησης DQN, double DQN, duel DQN και noisy DQN, αναπτύσσοντας τους αντίστοιχους πράκτορες. Το περιβάλλον αλληλεπίδρασης που επιλέχθηκε ήταν κλασσικό παιχνίδι MsPacman της πλατφόρμας Atari 2600. Ο εκάστοτε πράκτορας σε μία ανθρωποκεντρική προσέγγιση, εκπαιδεύεται με τη βοήθεια οπτικών παρατηρήσεων και της ανταμοιβής που δέχεται από το περιβάλλον. Βασικός σκοπός είναι η εκμάθηση του μοντέλου του περιβάλλοντος, που συνοδεύεται με υψηλή συνολική ανταμοιβή στην ολοκλήρωση κάθε παιχνιδιού. Οι πράκτορες αφού εκπαιδεύτηκαν για ορισμένο χρονικό διάστημα, αξιολογήθηκαν ως προς την απόδοσή τους. Στο τέλος της εργασίας παρουσιάζονται τα πειραματικά αποτελέσματα της μελέτης, ενώ παρατίθενται προτάσεις για μελλοντικές βελτιώσεις.
Abstract (translated): The present diploma thesis deals with the development of a deep reinforcement learning algorithm in game environment. Over the years, technology community has sought to integrate the behavior of living organisms, which can change during their lifetime through an endless process of training, into various technological creations. The field of machine learning and especially reinforcement learning, based on the above doctrine, creates agents who can learn through continuous interaction with the environment. However, modern problems have introduced some limitations in the application of reinforcing learning algorithms, due to their great complexity. The solution is given through the imitation of a biological mechanism, the neural networks. Their effective application in high-dimensional problems of the wider field of artificial intelligence led to their integration into reinforcing learning algorithms. In this way, a new scientific field was created, the deep reinforcement learning. In the current thesis, variants of the deep reinforcement learning algorithms DQN, double DQN, duel DQN and noisy DQN were implemented, developing the respective agents. The chosen interaction environment was the classic MsPacman game of the Atari 2600 platform. The agents were trained for a certain period of time and therefore were evaluated in terms of their performance. At the end of this thesis, some experimental results and future improvements are presented concerning the versatile subjects of this study.
Appears in Collections:Τμήμα Ηλεκτρολ. Μηχαν. και Τεχνολ. Υπολογ. (ΔΕ)

Files in This Item:
File Description SizeFormat 
thesis_up1046921.pdf4.48 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.