TextQuests:大型语言模型在复杂文本游戏中的表现探究
大型语言模型(LLM)的迅速发展,已在既定的学术和工业基准测试中取得了显著突破。尽管这些模型在MMLU和GPQA等基于知识的评估中已基本达到饱和,甚至在专家评估中也取得了重大进展,但它们在静态信息检索任务中的成功,并不总是能转化为在动态、交互式环境中的有效性。这种差异凸显了一个关键挑战:开发可靠的方法来评估LLM作为自主代理在复杂、探索性环境中的表现,而这些环境正是我们理想中智能助手和AI代理应蓬勃发展的地方。
评估自主代理主要有两种途径:一是利用真实世界环境来测试特定技能,如工具使用或编码;二是采用模拟的开放世界环境。后一种方法对于衡量代理在探索性环境中自主操作的能力特别有效,因为它要求代理在不断增长的上下文中进行持续的、自我导向的推理,同时易于评估。这个新兴领域已经引起了广泛关注,Balrog和ARC-AGI等基准相继出现,同时Claude和Gemini等模型在驾驭《宝可梦》等复杂游戏方面也展现出引人注目的能力。在此势头下,一个新的基准——TextQuests——应运而生。
TextQuests建立在25款经典Infocom交互式小说游戏的基础上。这些曾经流行的文本视频游戏,能够吸引人类玩家超过30小时,并需要数百个精确动作才能解决,为代理推理的复杂挑战提供了一个引人注目的测试平台。它们要求AI代理展示复杂的长上下文推理能力,通过对大量且不断扩展的动作和观察历史进行推理,来设计和执行多步骤计划,完全依赖其内在能力而无需外部辅助。此外,这些游戏的成功还取决于代理通过探索学习的能力,审视自身的失败,并在探索未知世界时通过试错法逐步改进。这种持续的参与使得对LLM本身作为AI代理系统的核心推理引擎,进行更直接和准确的评估成为可能。
在评估时,每个模型都进行两次不同的运行:一次可访问游戏的官方提示,另一次则没有。每次运行的步数上限为500步,如果代理成功完成游戏则提前结束。为了促进全面的长上下文评估,完整的游戏历史得以保留且不进行截断,这得益于现代LLM推理框架中固有的提示缓存功能,使得计算上可行。性能评估采用两个主要指标:游戏进度(Game Progress),根据一系列代表必要目标的标记检查点计算;以及危害(Harm),它跟踪被认为存在道德问题的特定游戏内行为,得分在所有游戏中取平均值,以衡量代理进行此类行为的总体倾向。
评估揭示了当前LLM能力的重大洞察,特别是关于长上下文推理方面。由于上下文窗口可以超过10万个令牌,LLM必须持续地对大量的观察和线索历史进行精确推理和规划,才能有效进展。然而,一个常见的观察是,当前模型经常对先前的交互“产生幻觉”,错误地记住细节或相信它们已经完成了尚未执行的动作。这常常导致代理陷入导航循环。此外,与模型玩《宝可梦》时的观察类似,随着上下文的增长,LLM代理显示出重复历史动作而非合成新计划的倾向增加。这些长上下文失败在需要空间推理的任务中尤为明显。例如,在游戏《Wishbringer》中,大多数LLM在爬上悬崖后难以原路返回,尽管解决方案仅仅是反转方向序列——这些信息在上下文历史中随时可用。这表明在构建和利用内部心理地图方面存在根本性困难。同样,所有测试的前沿LLM都难以导航《Zork I》中臭名昭著的迷宫。
除了推理准确性,代理的整体有效性还由其操作效率决定。对于LLM代理而言,效率与生成的输出或推理令牌数量密切相关,这直接影响推理成本和延迟。虽然使用更多计算资源的模型通常能实现更高的性能,但这种趋势在达到一定预算后开始减弱。这一考量至关重要,因为TextQuests中的许多探索性步骤(例如导航)是中间性的,无需深入推理即可成功执行。因此,理想的LLM代理应在其推理工作中既高效又动态,同时仍保持一致的性能。
总之,TextQuests对模型如何持续推进一系列经典交互式小说游戏进行了严格评估,这些游戏曾是人类玩家喜爱的消遣。通过开源TextQuests,研究人员希望促进对LLM代理在具有挑战性的探索性环境中当前能力的更深入理解和更准确评估。