ARC AGI 3:为何前沿大模型在人类级谜题前止步不前?

Towardsdatascience

大型语言模型(LLMs)的快速发展最近见证了Qwen 3 MoE、Kimi K2和Grok 4等强大新迭代的发布。随着这些进步的迅速推进,强大的基准对于评估和比较它们的能力至关重要。为此目的,最新工具之一是ARC AGI 3,一个旨在突出当前人类与人工智能之间差距的基准。

近期发布的ARC AGI 3是ARC AGI系列的最新迭代,该系列以其“人类易解而AI难解的交互式推理基准”而闻名。该平台随三个不同的游戏环境、一场10,000美元的智能体竞赛以及一个AI智能体API一同推出。对ARC AGI 3的初步评估显示出惊人的差异:前沿AI模型成功率为0%,而人类则始终保持100%的得分。

ARC AGI系列通过模式匹配益智游戏挑战参与者。ARC AGI 1和2涉及根据给定的输入-输出对完成模式,而ARC AGI 3则引入了一个交互式游戏,玩家必须将一个方块导航到目标区域,这通常需要中间步骤。这些游戏的一个核心特点是缺乏指令;玩家必须仅通过观察环境和行动效果来推断规则。这种设置严格测试了智能体学习新环境、适应和解决新问题的能力。

该基准的早期版本已显示LLMs取得了显著进展。例如,OpenAI的模型在ARC AGI 1上表现出改进的性能,其中o1 mini得分7.8%,o3-low达到75%,更高级的o3-high实现了88%。这一进展表明模型可以随着时间学习解决这些模式匹配任务。

然而,前沿模型在ARC AGI 3上目前0%的成功率指出了根本性挑战。有几个因素可能导致这种困境:

  • 上下文长度和内存管理: ARC AGI 3的交互性质要求在潜在的广阔行动空间内进行大量实验。模型必须尝试各种行动,观察其结果,评估序列,并规划后续步骤。此过程需要有效利用长上下文窗口和复杂的内存管理,以避免重复不成功的行动,并建立对游戏机制的连贯理解。总结先前上下文或采用外部文件系统进行内存存储等技术对于未来的改进可能至关重要。

  • 与训练数据差异: ARC AGI 3中的任务可能与LLM通常训练的数据集显著不同。虽然训练LLM以实现智能体行为(即它们利用工具并执行行动)的趋势日益增长,但当前的前沿模型可能仍然缺乏足够的机会接触交互式、游戏般环境的独特挑战。这提出了一个重要问题:LLM是否具备真正的智能,使其能够在没有明确线索的情况下理解任务,这是ARC AGI基准的核心原则。

尽管当前面临障碍,但预计LLM在ARC AGI 3上的性能将有显著提升。未来的进步可能来自专门针对智能体性能对AI智能体进行微调,并优化其内存利用率。这些增强可以通过相对经济高效的方法实现,或者通过更实质性的发展,例如发布更强大、更通用的LLM。

重要的是要认识到“基准追逐”现象,即LLM提供商优先在特定基准上取得高分,而不是培养真正广泛的智能。这种做法类似于强化学习中的“奖励作弊”,可能导致模型在一小部分任务中表现出色,但未必具备更深层次的理解或适应性。LLM的公开评估通常依赖于基准性能和主观的“感觉检查”,这可能会产生误导。“感觉检查”例如,可能只测试模型能力的一小部分,通常是它在训练数据中大量见过的任务。为确保模型真正满足特定用例,鼓励组织开发自己的专有、未泄露的数据集进行内部基准测试。

总之,LLM基准对于比较分析和追踪该领域的进展至关重要。ARC AGI 3作为一个引人注目的新基准,鲜明地展示了人类智能目前超越最先进LLM的领域。虽然预计LLM在ARC AGI 3上的性能将有未来改进,但希望这些进步将由AI智能的真正发展驱动,而不仅仅是为了优化基准分数。