Grok 4智取ARC-AGI复杂推理榜首,成本高昂GPT-5性价比更高

Decoder

在竞争激烈的人工智能领域,xAI的Grok 4据报道在严苛的ARC-AGI-2基准测试中超越了OpenAI的GPT-5。这项测试旨在评估模型的通用推理能力而非单纯的记忆能力。然而,Grok 4的这一意外领先伴随着一个显著的弊端:其运营成本大幅提高,这凸显了最新一代大型语言模型中复杂的权衡取舍。

根据基准测试组织ARC Prize发布的数据,Grok 4的“思考”(Thinking)版本在ARC-AGI-2上取得了约16%的准确率。尽管这一表现令人印象深刻,但每项任务的成本高达2至4美元。相比之下,OpenAI的旗舰模型GPT-5“高级”(High)尽管准确率仅为9.9%,但每项任务仅需0.73美元,成本效益要高得多。ARC-AGI基准测试经过精心设计,旨在优先评估真正的推理能力而非死记硬背的知识,不仅评估模型解决问题的能力,还评估其解决方案的经济可行性。

在难度较低的ARC-AGI-1测试中,情况略有不同。Grok 4在此保持领先,准确率达到约68%,紧随其后的是准确率为65.7%的GPT-5。然而,经济差异再次显现:Grok 4每项任务需要约1美元,而GPT-5仅需0.51美元即可提供类似性能。这种显著的价格差异目前将GPT-5定位为对成本效益至关重要的应用更具吸引力的选择,尽管xAI可能会重新调整其定价策略以缩小这一差距。

除了这些顶级模型,该基准测试还揭示了更轻量、更经济的变体的性能。例如,OpenAI的GPT-5 Mini在ARC-AGI-1上取得了54.3%的准确率,成本仅为0.12美元;在ARC-AGI-2上取得了4.4%的准确率,成本为0.20美元。更紧凑的GPT-5 Nano则展示了其超低成本潜力,在ARC-AGI-1上得分16.5%,在ARC-AGI-2上得分2.5%,两项任务的成本都异常低,仅为0.03美元。这些较小的模型凸显了行业在提供多样化产品方面的努力,以满足不同性能和预算要求。

展望未来,ARC Prize已确认交互式ARC-AGI-3基准测试的初步非官方评估正在进行中。这项创新测试挑战模型在类似游戏的环境中通过迭代试错来解决任务。尽管这些视觉拼图游戏对人类来说通常易于理解和解决,但大多数人工智能代理仍然难以应对,这凸显了在实现真正类人认知灵活性和自适应问题解决方面仍存在的重大障碍。

有必要将Grok 4在这些特定基准测试中的出色表现置于背景中。虽然令人印象深刻,但这并不能单方面确立其在所有AI应用中的卓越地位,尤其是考虑到对基准测试方法和竞争实践的持续审查。有趣的是,OpenAI在其最近的GPT-5发布会上Notably没有提及ARC Prize,这与其过去在新模型发布时经常强调此类基准测试的做法有所不同。

进一步使竞争格局复杂化的是o3-preview模型的奇怪案例。该OpenAI变体于2024年12月推出,在ARC-AGI-1测试中仍以相当大的优势保持最高分,准确率接近80%,尽管其成本显著高于竞争对手。有报道称,OpenAI被迫对其后来的公开聊天版本o3-preview进行了大幅削减。这一说法随后得到了ARC Prize本身的证实,该组织证实了公开可用的o3模型在4月下旬性能有所下降,这引发了关于原始能力、成本和公共部署策略之间权衡取舍的问题。

最新的ARC-AGI结果生动地描绘了一个快速发展的AI生态系统,其中突破往往伴随着复杂的权衡。尽管Grok 4在某些推理任务中展现出无可否认的优势,但GPT-5在成本效益方面保持着令人信服的领先地位,并提供了一套更广泛的针对各种应用的模型。领先AI开发商之间的竞争依然激烈,不断突破这些强大系统所能实现的极限,即使自适应推理方面的基本挑战依然存在。