TextQuests: Les LLM et les jeux vidéo textuels complexes
L’avancement rapide des Grands Modèles de Langage (LLM) a conduit à des percées remarquables à travers les benchmarks académiques et industriels établis. Bien que ces modèles saturent désormais largement les évaluations basées sur les connaissances comme MMLU et GPQA, et fassent même des progrès significatifs dans les évaluations d’experts, leur succès dans les tâches statiques de récupération d’informations ne se traduit pas toujours par une efficacité dans des environnements dynamiques et interactifs. Cette disparité met en évidence un défi critique : développer des méthodologies robustes pour évaluer les LLM en tant qu’agents autonomes dans des environnements complexes et exploratoires, où nous souhaiterions idéalement que les assistants intelligents et les agents IA prospèrent.
Deux voies principales existent pour évaluer les agents autonomes : l’utilisation d’environnements réels pour tester des compétences spécifiques telles que l’utilisation d’outils ou le codage, ou l’emploi d’environnements simulés en monde ouvert. Cette dernière approche est particulièrement efficace pour mesurer la capacité d’un agent à fonctionner de manière autonome dans des contextes exploratoires, qui exigent un raisonnement soutenu et autodirigé sur un contexte en constante croissance, tout en offrant une facilité d’évaluation. Ce domaine naissant a suscité un intérêt croissant, avec l’émergence de benchmarks comme Balrog et ARC-AGI, parallèlement à des démonstrations convaincantes de modèles tels que Claude et Gemini naviguant les complexités de jeux comme Pokémon. S’appuyant sur cet élan, un nouveau benchmark appelé TextQuests a été introduit.
TextQuests est bâti sur une collection de 25 jeux classiques de fiction interactive d’Infocom. Ces jeux vidéo textuels autrefois populaires, qui pouvaient absorber les joueurs humains pendant plus de 30 heures et nécessitaient des centaines d’actions précises pour être résolus, offrent un banc d’essai convaincant pour les défis complexes du raisonnement agéntique. Ils exigent d’un agent IA qu’il démontre un raisonnement sophistiqué à long contexte, l’obligeant à concevoir et à exécuter des plans en plusieurs étapes en raisonnant sur un vaste historique d’actions et d’observations en expansion continue, en se basant uniquement sur ses capacités intrinsèques sans aide externe. De plus, le succès dans ces jeux repose sur la capacité de l’agent à apprendre par l’exploration, à interroger ses propres échecs et à apporter des améliorations incrémentales par essais et erreurs alors qu’il navigue dans un monde inconnu. Cet engagement soutenu permet une évaluation plus directe et précise du LLM lui-même, servant de moteur de raisonnement central d’un système d’agent IA.
Pour l’évaluation, chaque modèle subit deux exécutions distinctes : l’une avec accès aux indices officiels du jeu, et l’autre sans. Chaque exécution est limitée à 500 étapes, se terminant plus tôt si l’agent réussit à terminer le jeu. Pour faciliter une évaluation complète à long contexte, l’historique complet du jeu est conservé sans troncature, une approche réalisable sur le plan computationnel grâce à la mise en cache des prompts inhérente aux frameworks d’inférence LLM modernes. La performance est évaluée à l’aide de deux métriques principales : la Progression du Jeu, calculée sur la base d’une série de points de contrôle étiquetés représentant les objectifs nécessaires, et les Dommages, qui suivent les actions spécifiques en jeu considérées comme éthiquement problématiques, le score étant moyenné sur tous les jeux pour évaluer la propension globale d’un agent à de telles actions.
Les évaluations révèlent des informations significatives sur les capacités actuelles des LLM, en particulier concernant le raisonnement à long contexte. Comme la fenêtre de contexte peut dépasser 100 000 tokens, les LLM doivent constamment effectuer un raisonnement et une planification précis sur un historique étendu d’observations et d’indices pour progresser efficacement. Cependant, une observation courante est que les modèles actuels « hallucinent » fréquemment sur des interactions antérieures, se souvenant mal des détails ou croyant avoir déjà accompli une action qu’ils n’ont pas faite. Cela conduit souvent les agents à se retrouver bloqués dans des boucles de navigation. De plus, similaire aux observations des modèles jouant à Pokémon, les agents LLM montrent une tendance accrue à répéter des actions de leur historique plutôt que de synthétiser de nouveaux plans à mesure que le contexte s’allonge. Ces échecs de long contexte sont particulièrement prononcés dans les tâches nécessitant un raisonnement spatial. Par exemple, dans le jeu Wishbringer, la plupart des LLM ont eu du mal à redescendre une falaise après l’avoir escaladée, même si la solution impliquait simplement d’inverser la séquence des directions — des informations facilement disponibles dans l’historique du contexte. Cela indique une difficulté fondamentale à construire et à utiliser une carte mentale interne. De même, tous les LLM de pointe testés ont eu du mal à naviguer dans le célèbre Labyrinthe de Zork I.
Au-delà de la précision du raisonnement, l’efficacité globale d’un agent est également définie par son efficience opérationnelle. Pour les agents LLM, l’efficience est étroitement liée au nombre de tokens de sortie ou de raisonnement générés, ce qui a un impact direct sur le coût d’inférence et la latence. Bien que les modèles qui utilisent plus de ressources computationnelles atteignent généralement de meilleures performances, cette tendance commence à diminuer après un certain budget. Cette considération est cruciale, car de nombreuses étapes exploratoires dans TextQuests, telles que la navigation, sont intermédiaires et peuvent être exécutées avec succès sans nécessiter une profondeur de raisonnement étendue. Un agent LLM idéal devrait donc être à la fois efficient et dynamique dans son effort de raisonnement, tout en maintenant des performances constantes.
En conclusion, TextQuests fournit une évaluation rigoureuse de la capacité des modèles à progresser de manière constante à travers une série de jeux classiques de fiction interactive, autrefois un passe-temps très apprécié des joueurs humains. En rendant TextQuests open-source, les chercheurs espèrent favoriser une compréhension plus approfondie et une évaluation plus précise des capacités actuelles des agents LLM dans des environnements stimulants et exploratoires.