Zur Kurzanzeige

dc.date.accessioned2023-03-13T15:11:48Z
dc.date.available2023-03-13T15:11:48Z
dc.date.issued2023
dc.identifierdoi:10.17170/kobra-202303077591
dc.identifier.urihttp://hdl.handle.net/123456789/14491
dc.language.isoeng
dc.rightsUrheberrechtlich geschützt
dc.rights.urihttps://rightsstatements.org/page/InC/1.0/
dc.subject.ddc004
dc.titleLearning planning communication in cooperative multi-agent settingseng
dc.typeDissertation
dcterms.abstractThis work is a holistic investigation of the question of how and why reinforcement learning (RL) agents fail to develop planning communication in a cooperative setting. It is also a guide to anyone trying to build a system that learns to use planning communication patterns. We examine the state of the art in multi-agent systems and emergent communication for the existence of communication patterns that share information about future actions and plans. To do this, we strategically formulate hypotheses that question various parts of the systems’ motivation or capability and test them. In doing so, we identify elements related to the task, the reward function, the algorithm used and its architecture that prevent or promote planning communication. The major takeaway is that model-free RL algorithms are inherently ill-suited to producing planning communication, because the learning process is itself the solution to the presented planning problem. A converged model-free algorithm has therefore no further incentive to plan. The second takeaway is that it is difficult to formulate toy tasks that yield a relevant advantage for planning communication over just signaling partially observable states, because to do so the observed situation must not lead to apparent strategies. With CoMaze, played with an unknown partner, we propose our best guess for a task that motivates the emergence of planning communication over simple signaling structures. The third takeaway is that RL algorithms can have difficulties to determine the connection between earlier communication and later success, which makes it hard to learn to talk about plans. We present a hierarchical architecture to avoid this problem in recursive networks and discuss other possible solutions. We take the lessons learned in this investigation to build an application where agents learn to communicate and execute a longer movement plan produced by a theoretical modelbased algorithm. In building this application step by step, we show the effect of different design decisions on the properties of the resulting communication. This includes the ordering of meaning in learned utterances as well as their relative or absolute relation to state observations. Eventually, we present a resolution of the classical cooperative or hierarchical relationship between communicating agents to achieve more productive task-sharing in executing plans as well as micromanagement tasks. Overall, this work should offer both insight and tools to shape RL algorithms towards planning communication.eng
dcterms.abstractDiese Arbeit ist eine ganzheitliche Betrachtung der Frage, woran RL-Agenten scheitern, wenn sie planende Kommunikation in einem kooperativen Setting entwickeln sollen. Sie stellt außerdem einen Leitfaden für jeden dar, der versucht ein System planende Kommunikationsmuster selbst lernen zu lassen. Wir untersuchen den Stand der Technik in Multiagentensystemen und emergenter Kommunikation auf die Existenz von Kommunikationsmustern, mit denen die Agenten Informationen über zukünftige Aktionen und Pläne teilen. Dafür formulieren wir strategisch Hypothesen, die verschiedene Teile der Motivation oder Fähigkeit der Systeme in Frage stellen und überprüfen sie. Dabei identifizieren wir Elemente in Bezug auf die Aufgabenstellung, die Belohnungsfunktion, den verwendeten Algorithmus und seine Architektur, die eine planende Kommunikation verhindern oder befördern. Die wichtigste Erkenntnis ist, dass modellfreie Algorithmen von Natur aus schlecht geeignet sind, um Planungskommunikation zu erzeugen, da der Lernprozess selbst die Lösung für das dargestellte Planungsproblem ist. Ein konvergierter modellfreier Algorithmus hat daher keinen weiteren Anreiz zu planen. Die zweite Erkenntnis ist, dass es schwierig ist, Testaufgaben zu formulieren, die einen relevanten Vorteil für die Planungskommunikation gegenüber dem bloßen Melden von beobachteten Zuständen bieten, denn dazu darf die beobachtete Situation nicht zu offensichtlichen Strategien führen. Mit CoMaze, gespielt mit einem unbekannten Partner, bieten wir unseren besten Entwurf für eine Aufgabe, die die Entstehung von Planungskommunikation gegenüber einfachem Meldeverhalten motiviert. Die dritte Erkenntnis ist, dass Algorithmen Schwierigkeiten haben können, den Zusammenhang zwischen früherer Kommunikation und späterem Erfolg zu bestimmen, was es schwierig macht zu lernen über Pläne zu sprechen. Wir stellen eine hierarchische Architektur vor, um dieses Problem in rekursiven Netzwerken zu vermeiden, und diskutieren andere mögliche Lösungen. Wir nutzen die in dieser Untersuchung gewonnenen Erkenntnisse, um eine Anwendung zu entwickeln, in der Agenten lernen zu kommunizieren und einen längeren Bewegungsplan auszuführen, der von einem theoretischen modellbasierten Algorithmus erstellt wurde. Indem wir diese Anwendung Schritt für Schritt aufbauen, zeigen wir die Auswirkungen verschiedener Designentscheidungen auf die Eigenschaften der resultierenden Kommunikation. Dazu gehören die Reihenfolge der Bedeutungen in den gelernten Äußerungen sowie ihre relative oder absolute Beziehung zu Zustandsbeobachtungen. Schließlich präsentieren wir eine Auflösung der klassischen kooperativen oder hierarchischen Beziehung zwischen kommunizierenden Agenten, um eine produktivere Aufgabenteilung bei der Ausführung von Plänen sowie Mikromanagementaufgaben zu erreichen. Insgesamt sollte diese Arbeit sowohl Einblicke als auch Werkzeuge zur Gestaltung von RL-Algorithmen zur Planungskommunikation bieten.ger
dcterms.accessRightsopen access
dcterms.creatorOssenkopf, Marie
dcterms.dateAccepted2022-11-23
dcterms.extentxxi, 163 Seiten
dc.contributor.corporatenameKassel, Universität Kassel, Fachbereich Elektrotechnik / Informatikger
dc.contributor.refereeGeihs, Kurt (Prof. Dr.)
dc.contributor.refereeLazaridou, Angeliki (Dr.)
dc.subject.swdMehragentensystemger
dc.subject.swdKommunikationger
dc.subject.swdAlgorithmusger
dc.type.versionpublishedVersion
kup.iskupfalse
ubks.epflichttrue


Dateien zu dieser Ressource

Thumbnail

Das Dokument erscheint in:

Zur Kurzanzeige