banner

Blog

Jan 12, 2024

Glücksspiel trifft Quantenphysik

Von Intelligent Computing, 23. August 2023

Wissenschaftler haben ein photonisches Verstärkungslernschema eingeführt, das vom statischen mehrarmigen Banditenproblem zu einer dynamischen Umgebung übergeht und Quanteninterferenz von Photonen nutzt, um die Entscheidungsfindung zu verbessern. Sie entwickelten einen modifizierten Bandit-Q-Learning-Algorithmus, der in einer 5×5-Gitterwelt getestet wurde, mit dem Ziel, den optimalen Q-Wert für jedes Zustands-Aktionspaar genau zu lernen und gleichzeitig Erkundung und Ausbeutung in Einklang zu bringen.

Wie maximiert ein Spieler die Gewinne aus einer Reihe von Spielautomaten? Diese Frage inspirierte das „Problem der mehrarmigen Banditen“, eine häufige Aufgabe beim Reinforcement Learning, bei der „Agenten“ Entscheidungen treffen, um Belohnungen zu erhalten. Kürzlich stellte ein internationales Forscherteam unter der Leitung von Hiroaki Shinkawa von der Universität Tokio eine fortschrittliche Lernmethode zur photonischen Verstärkung vor, die vom statischen Banditenproblem zu einer komplexeren dynamischen Umgebung übergeht. Ihre Ergebnisse wurden kürzlich in der Fachzeitschrift Intelligent Computing veröffentlicht.

Der Erfolg des Programms beruht sowohl auf einem photonischen System zur Verbesserung der Lernqualität als auch auf einem unterstützenden Algorithmus. Mit Blick auf eine „potenzielle photonische Implementierung“ entwickelten die Autoren einen modifizierten Bandit-Q-Learning-Algorithmus und validierten seine Wirksamkeit durch numerische Simulationen. Sie testeten ihren Algorithmus auch mit einer parallelen Architektur, in der mehrere Agenten gleichzeitig arbeiten, und stellten fest, dass der Schlüssel zur Beschleunigung des parallelen Lernprozesses darin besteht, widersprüchliche Entscheidungen zu vermeiden, indem sie sich die Quanteninterferenz von Photonen zunutze machen.

Obwohl die Nutzung der Quanteninterferenz von Photonen in diesem Bereich nicht neu ist, glauben die Autoren, dass diese Studie „die erste ist, die das Konzept der photonischen kooperativen Entscheidungsfindung mit Q-Learning verbindet und auf eine dynamische Umgebung anwendet“. Reinforcement-Learning-Probleme werden im Allgemeinen in einer dynamischen Umgebung angesiedelt, die sich mit den Aktionen der Agenten ändert, und sind daher komplexer als die statische Umgebung in einem Bandit-Problem.

Der Agent wählt eine der vier durch schwarze Pfeile angezeigten Aktionen, erhält eine Belohnung und geht zur nächsten Zelle. Wenn der Agent in einer der beiden Spezialzellen A oder B ankommt, ist die Belohnung groß und der Agent springt in eine andere Zelle, wie durch die roten Pfeile dargestellt. Bildnachweis: Hiroaki Shinkawa et al.

Diese Studie zielt auf eine Gitterwelt ab, eine Ansammlung von Zellen mit unterschiedlichen Belohnungen. Jeder Agent kann nach oben, unten, links oder rechts gehen und erhält eine Belohnung basierend auf seiner aktuellen Bewegung und Position. In dieser Umgebung wird der nächste Schritt des Agenten vollständig von seiner aktuellen Bewegung und seinem aktuellen Standort bestimmt.

Die Simulationen in dieser Studie verwenden ein 5 × 5-Zellen-Raster; Jede Zelle wird als „Zustand“ bezeichnet, jede von einem Agenten in jedem Zeitschritt ausgeführte Bewegung wird als „Aktion“ bezeichnet und die Regel, die bestimmt, wie ein Agent in jedem Zustand eine bestimmte Aktion auswählt, wird als „Richtlinie“ bezeichnet. Der Entscheidungsprozess ist als Banditenproblemszenario konzipiert, bei dem jedes Zustands-Aktionspaar als Spielautomat betrachtet wird und die Änderungen des Q-Werts – die Werte der Zustands-Aktionspaare – als Belohnungen betrachtet werden.

Im Gegensatz zu grundlegenden Q-Learning-Algorithmen, die sich im Allgemeinen darauf konzentrieren, den optimalen Weg zur Maximierung der Belohnungen zu finden, zielt der modifizierte Bandit-Q-Learning-Algorithmus darauf ab, den optimalen Q-Wert für jedes Zustands-Aktionspaar in der gesamten Umgebung effizient und genau zu lernen. Daher ist es für einen Agenten wichtig, ein gutes Gleichgewicht zwischen der „Ausnutzung“ der bekannten Paare mit hohen Werten für schnelleres Lernen und der „Erkundung“ seltener Paare für potenziell höhere Werte zu wahren. Als Richtlinie wird der Softmax-Algorithmus verwendet, ein beliebtes Modell, das sich bei dieser Art des Ausgleichs auszeichnet.

Die zukünftige Priorität der Autoren besteht darin, ein photonisches System zu entwerfen, das die konfliktfreie Entscheidungsfindung zwischen mindestens drei Agenten unterstützt, in der Hoffnung, dass die Ergänzung zu ihrem vorgeschlagenen Schema den Agenten dabei helfen wird, widersprüchliche Entscheidungen zu vermeiden. In der Zwischenzeit planen sie die Entwicklung von Algorithmen, die es Agenten ermöglichen, kontinuierlich zu agieren, und die Anwendung ihres Bandit-Q-Learning-Algorithmus auf kompliziertere Reinforcement-Learning-Aufgaben.

Referenz: „Bandit Approach to Conflict-Free Parallel Q-Learning in View of Photonic Implementation“ von Hiroaki Shinkawa, Nicolas Chauvet, André Röhm, Takatomo Mihana, Ryoichi Horisaki, Guillaume Bachelier und Makoto Naruse, 25. Juli 2023, Intelligence Computing.DOI: 10.34133/icomputing.0046

Die Studie wurde von der Japan Science and Technology Agency und der Japan Society for the Promotion of Science finanziert.

AKTIE