TextQuests: ¿Cómo actúan los LLM en juegos de texto complejos?

Huggingface

El rápido avance de los Grandes Modelos de Lenguaje (LLM) ha llevado a avances notables en los benchmarks académicos e industriales establecidos. Si bien estos modelos saturan en gran medida las evaluaciones basadas en el conocimiento como MMLU y GPQA, e incluso logran avances significativos en las evaluaciones de expertos, su éxito en tareas estáticas de recuperación de información no siempre se traduce en eficacia en entornos dinámicos e interactivos. Esta disparidad resalta un desafío crítico: desarrollar metodologías robustas para evaluar a los LLM como agentes autónomos en entornos complejos y exploratorios, donde idealmente querríamos que prosperaran los asistentes inteligentes y los agentes de IA.

Existen dos vías principales para evaluar a los agentes autónomos: utilizar entornos del mundo real para probar habilidades específicas como el uso de herramientas o la codificación, o emplear entornos simulados de mundo abierto. Este último enfoque es particularmente efectivo para medir la capacidad de un agente para operar de forma autónoma en entornos exploratorios, que exigen un razonamiento sostenido y autodirigido sobre un contexto en constante crecimiento, todo ello mientras ofrece facilidad de evaluación. Este campo naciente ha visto un interés creciente, con la aparición de benchmarks como Balrog y ARC-AGI, junto con demostraciones convincentes de modelos como Claude y Gemini navegando las complejidades de juegos como Pokémon. Basándose en este impulso, se ha introducido un nuevo benchmark llamado TextQuests.

TextQuests se basa en una colección de 25 juegos clásicos de ficción interactiva de Infocom. Estos videojuegos basados en texto, que alguna vez fueron populares y podían absorber a los jugadores humanos durante más de 30 horas y requerían cientos de acciones precisas para resolverlos, ofrecen un banco de pruebas convincente para los intrincados desafíos del razonamiento agéntico. Exigen que un agente de IA demuestre un razonamiento sofisticado de contexto largo, lo que le obliga a idear y ejecutar planes de varios pasos razonando sobre un historial vasto y en constante expansión de acciones y observaciones, basándose únicamente en sus capacidades intrínsecas sin ayudas externas. Además, el éxito en estos juegos depende de la capacidad del agente para aprender a través de la exploración, interrogando sus propios fallos y realizando mejoras incrementales mediante prueba y error mientras navega por un mundo desconocido. Este compromiso sostenido permite una evaluación más directa y precisa del propio LLM, sirviendo como motor de razonamiento central de un sistema de agente de IA.

Para la evaluación, cada modelo se somete a dos ejecuciones distintas: una con acceso a las pistas oficiales del juego y otra sin ellas. Cada ejecución tiene un límite de 500 pasos, concluyendo antes si el agente completa el juego con éxito. Para facilitar una evaluación exhaustiva del contexto largo, el historial completo del juego se mantiene sin truncamiento, un enfoque computacionalmente factible gracias al almacenamiento en caché de prompts inherente a los marcos de inferencia de LLM modernos. El rendimiento se evalúa utilizando dos métricas principales: Progreso del Juego, calculado en base a una serie de puntos de control etiquetados que representan objetivos necesarios, y Daño, que rastrea acciones específicas dentro del juego consideradas éticamente problemáticas, con la puntuación promediada en todos los juegos para medir la propensión general de un agente a tales acciones.

Las evaluaciones revelan conocimientos significativos sobre las capacidades actuales de los LLM, particularmente en lo que respecta al razonamiento de contexto largo. Como la ventana de contexto puede exceder los 100.000 tokens, los LLM deben realizar consistentemente un razonamiento y una planificación precisos sobre un extenso historial de observaciones y pistas para progresar eficazmente. Sin embargo, una observación común es que los modelos actuales con frecuencia “alucinan” sobre interacciones previas, recordando mal detalles o creyendo que ya han completado una acción que no han realizado. Esto a menudo lleva a que los agentes se queden atascados en bucles de navegación. Además, de manera similar a las observaciones de modelos que juegan Pokémon, los agentes LLM muestran una mayor tendencia a repetir acciones de su historial en lugar de sintetizar planes novedosos a medida que el contexto se alarga. Estos fallos de contexto largo son especialmente pronunciados en tareas que requieren razonamiento espacial. Por ejemplo, en el juego Wishbringer, la mayoría de los LLM tuvieron dificultades para navegar de vuelta por un acantilado después de ascenderlo, a pesar de que la solución simplemente implicaba invertir la secuencia de direcciones —información fácilmente disponible en el historial de contexto. Esto indica una dificultad fundamental en la construcción y utilización de un mapa mental interno. De manera similar, todos los LLM de frontera probados tuvieron dificultades para navegar por el infame Laberinto en Zork I.

Más allá de la precisión del razonamiento, la efectividad general de un agente también se define por su eficiencia operativa. Para los agentes LLM, la eficiencia está estrechamente ligada al número de tokens de salida o de razonamiento generados, lo que impacta directamente el costo de inferencia y la latencia. Si bien los modelos que utilizan más recursos computacionales generalmente logran un mayor rendimiento, esta tendencia comienza a disminuir después de un cierto presupuesto. Esta consideración es crucial, ya que muchos pasos exploratorios en TextQuests, como la navegación, son intermedios y pueden ejecutarse con éxito sin requerir una profundidad de razonamiento extensa. Un agente LLM ideal debería, por lo tanto, ser eficiente y dinámico en su esfuerzo de razonamiento, manteniendo al mismo tiempo un rendimiento constante.

En conclusión, TextQuests proporciona una evaluación rigurosa de lo bien que los modelos pueden progresar consistentemente a través de una serie de juegos clásicos de ficción interactiva, que alguna vez fueron un pasatiempo querido por los jugadores humanos. Al abrir el código de TextQuests, los investigadores esperan fomentar una comprensión más profunda y una evaluación más precisa de las capacidades actuales de los agentes LLM en entornos desafiantes y exploratorios.