TextQuests: LLMs in komplexen Text-Videospielen

Huggingface

Der rasche Fortschritt großer Sprachmodelle (LLMs) hat zu bemerkenswerten Durchbrüchen bei etablierten akademischen und industriellen Benchmarks geführt. Während diese Modelle wissensbasierte Bewertungen wie MMLU und GPQA weitgehend sättigen und sogar bei Expertenbewertungen erhebliche Fortschritte erzielen, überträgt sich ihr Erfolg bei statischen Informationsabrufaufgaben nicht immer auf die Effektivität in dynamischen, interaktiven Umgebungen. Diese Disparität verdeutlicht eine kritische Herausforderung: die Entwicklung robuster Methoden zur Bewertung von LLMs als autonome Agenten in komplexen, explorativen Umgebungen, in denen intelligente Assistenten und KI-Agenten idealerweise erfolgreich sein sollten.

Es gibt zwei primäre Wege zur Bewertung autonomer Agenten: die Nutzung realer Umgebungen, um spezifische Fähigkeiten wie Werkzeuggebrauch oder Codierung zu testen, oder der Einsatz simulierter Open-World-Umgebungen. Letzterer Ansatz ist besonders effektiv, um die Fähigkeit eines Agenten zu beurteilen, autonom in explorativen Umgebungen zu agieren, die ein nachhaltiges, selbstgesteuertes Reasoning über einen ständig wachsenden Kontext erfordern, während sie gleichzeitig eine einfache Bewertung ermöglichen. Dieses junge Feld hat ein wachsendes Interesse erfahren, mit Benchmarks wie Balrog und ARC-AGI, die aufkommen, sowie überzeugenden Demonstrationen von Modellen wie Claude und Gemini, die die Komplexität von Spielen wie Pokémon navigieren. Aufbauend auf diesem Schwung wurde ein neuer Benchmark namens TextQuests eingeführt.

TextQuests basiert auf einer Sammlung von 25 klassischen Infocom-Text-Adventures. Diese einst populären textbasierten Videospiele, die menschliche Spieler über 30 Stunden fesseln und Hunderte präziser Aktionen zur Lösung erfordern konnten, bieten ein überzeugendes Testfeld für die komplexen Herausforderungen des agentischen Reasonings. Sie verlangen von einem KI-Agenten, ein ausgefeiltes Langzeit-Reasoning zu demonstrieren, das die Entwicklung und Ausführung mehrstufiger Pläne erfordert, indem er über eine riesige und ständig wachsende Historie von Aktionen und Beobachtungen nachdenkt und sich dabei ausschließlich auf seine intrinsischen Fähigkeiten ohne externe Hilfsmittel verlässt. Darüber hinaus hängt der Erfolg in diesen Spielen von der Fähigkeit des Agenten ab, durch Exploration zu lernen, seine eigenen Fehler zu hinterfragen und inkrementelle Verbesserungen durch Versuch und Irrtum vorzunehmen, während er eine unbekannte Welt navigiert. Dieses nachhaltige Engagement ermöglicht eine direktere und genauere Bewertung des LLM selbst, das als Kern-Reasoning-Engine eines KI-Agenten-Systems dient.

Zur Bewertung durchläuft jedes Modell zwei verschiedene Läufe: einen mit Zugang zu den offiziellen Hinweisen des Spiels und einen ohne. Jeder Lauf ist auf 500 Schritte begrenzt und wird vorzeitig beendet, wenn der Agent das Spiel erfolgreich abschließt. Um eine umfassende Langzeit-Kontextbewertung zu ermöglichen, wird die gesamte Spielhistorie ohne Kürzung beibehalten, ein rechnerisch machbarer Ansatz dank des Prompt-Cachings, das in modernen LLM-Inferenz-Frameworks inherent ist. Die Leistung wird anhand von zwei Hauptmetriken bewertet: Spielfortschritt (Game Progress), berechnet auf der Grundlage einer Reihe von markierten Kontrollpunkten, die notwendige Ziele darstellen, und Schaden (Harm), der spezifische im Spiel als ethisch problematisch angesehene Aktionen verfolgt, wobei der Wert über alle Spiele gemittelt wird, um die allgemeine Neigung eines Agenten zu solchen Aktionen zu beurteilen.

Die Bewertungen liefern signifikante Einblicke in die aktuellen LLM-Fähigkeiten, insbesondere hinsichtlich des Langzeit-Reasonings. Da das Kontextfenster 100.000 Tokens überschreiten kann, müssen LLMs konsistent präzises Reasoning und Planung über eine umfangreiche Historie von Beobachtungen und Hinweisen durchführen, um effektiv Fortschritte zu erzielen. Eine häufige Beobachtung ist jedoch, dass aktuelle Modelle häufig über frühere Interaktionen „halluzinieren“, sich an Details falsch erinnern oder glauben, eine Aktion bereits abgeschlossen zu haben, die sie noch nicht ausgeführt haben. Dies führt oft dazu, dass Agenten in Navigationsschleifen stecken bleiben. Darüber hinaus zeigen LLM-Agenten, ähnlich wie Beobachtungen von Modellen, die Pokémon spielen, eine erhöhte Tendenz, Aktionen aus ihrer Historie zu wiederholen, anstatt neue Pläne zu synthetisieren, wenn der Kontext länger wird. Diese Langzeit-Kontextfehler sind besonders ausgeprägt bei Aufgaben, die räumliches Denken erfordern. Zum Beispiel hatten die meisten LLMs im Spiel Wishbringer Schwierigkeiten, einen Abstieg von einer Klippe zu finden, nachdem sie diese erklommen hatten, obwohl die Lösung einfach darin bestand, die Abfolge der Richtungen umzukehren – eine Information, die im Kontextverlauf leicht verfügbar war. Dies deutet auf eine grundlegende Schwierigkeit beim Aufbau und der Nutzung einer internen mentalen Karte hin. Ähnlich hatten alle getesteten Frontier-LLMs Schwierigkeiten, das berüchtigte Labyrinth in Zork I zu navigieren.

Neben der Reasoning-Genauigkeit wird die Gesamteffektivität eines Agenten auch durch seine Betriebseffizienz bestimmt. Für LLM-Agenten ist die Effizienz eng an die Anzahl der generierten Ausgabe- oder Reasoning-Tokens gebunden, was sich direkt auf Inferenzkosten und Latenz auswirkt. Während Modelle, die mehr Rechenressourcen nutzen, im Allgemeinen eine höhere Leistung erzielen, beginnt dieser Trend nach einem bestimmten Budget abzunehmen. Diese Überlegung ist entscheidend, da viele explorative Schritte in TextQuests, wie die Navigation, intermediär sind und ohne umfangreiche Reasoning-Tiefe erfolgreich ausgeführt werden können. Ein idealer LLM-Agent sollte daher sowohl effizient als auch dynamisch in seinem Reasoning-Aufwand sein, während er gleichzeitig eine konsistente Leistung beibehält.

Zusammenfassend lässt sich sagen, dass TextQuests eine rigorose Bewertung darüber liefert, wie gut Modelle eine Reihe klassischer Text-Adventures, einst ein beliebtes Freizeitvergnügen für menschliche Spieler, konsistent durchlaufen können. Durch die Open-Sourcing von TextQuests hoffen Forscher, ein tieferes Verständnis und eine genauere Bewertung der aktuellen Fähigkeiten von LLM-Agenten in herausfordernden, explorativen Umgebungen zu fördern.