Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Influence Of Changing Environments On Model-Based Reinforcement Learning Algorithms
Organization Unit
Authors
  • Severin Siffert
Supervisors
  • Manuel Günther
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2021
Abstract Text Current work on reinforcement learning algorithms for the reset-free setting focuses heavily on model-based agents because of their strong planning capabilities, especially for previously unseen tasks. Model-based reinforcement learning relies heavily on internal models of the world surrounding the agent, but not much attention is paid to shifting environment dynamics, which is likely to happen in various real-world scenarios. In this work, LiSP (Lifelong Skill Planning) and LSR (Learning Skillful Resets) are evaluated and compared against SAC (Soft Actor-Critic) in situations with different environment behaviour. Additionally, methods of environment shaping and environment dynamism are examined to facilitate the adaptation to new environment dynamics or as an alternative way to slowly introduce complex environment dynamics during training. The results suggest that both LiSP's and LSR's exploration mechanisms fail to explore both environments sufficiently to achieve good performance. SAC needs some help in the form of environment shaping or the help of occasional resets to achieve near-optimal performance in one environment, but fails to learn in the second. The results demonstrate what kinds of environment modifications are most useful to improve performance and which ones are better avoided.
Zusammenfassung Aktuelle Fortschritte an Reinforcement Learning-Algorithmen in endlosen Umgebungen konzentrieren sich vor allem auf modellbasierte Methoden, da diese gut planen können und besonders bei komplett neuen Aufgaben brillieren. Modellbasiertes Reinforcement Learning ist stark auf interne Modelle der umgebenden Welt angewiesen. Es wird aber kaum beachtet, wie sich diese auf ändernde Umgebungen reagieren, obwohl in der realen Welt oft Veränderungen geschehen. In dieser Arbeit werden LiSP (Lifelong Skill Planning) und LSR (Learning Skillful Resets) evaluiert und mit SAC (Soft Actor-Critic) in Situationen mit unterschiedlichen Umgebungsverhalten verglichen. Zusätzlich zu diesen Vergleichen werden Techniken namens Environment Shaping und Environment Dynamism evaluiert, ob sie sich dazu eignen, während dem Trainingsprozess Komplexität langsam einzuführen. Die Resultate zeigen, dass LiSP und LSR die Umgebungen nicht genügend erkunden, um zufriedenstellende Leistung zu erbringen. SAC braucht Hilfe in Form von Environment Shaping oder gelegentliche Resets um in der einen Umgebung nahezu perfekte Leistung zu bringen, schafft es aber in der zweiten Umgebung nicht, etwas zu lernen. Die Resultate liefern ausserdem Hinweise darauf, welche Arten von Modifikation an den Umgebungen am meisten Nutzen bringen und welche Arten zu vermeiden sind.
PDF File Download
Export BibTeX