OpenAI的o3模型在复杂办公任务中超越GPT-5,AI进步现意外转折
一项旨在突破人工智能在真实办公环境中界限的新基准测试产生了令人惊讶的结果:OpenAI已有的o3模型在复杂的、多应用程序任务上持续优于其更新的GPT-5模型。这项基于最新引入的OdysseyBench的发现表明,AI代理在处理复杂、长时间工作流程方面的能力进步可能正以意想不到的方式演变。
由微软和爱丁堡大学的研究人员开发,OdysseyBench旨在超越孤立的“原子任务”(简单的单步命令),以评估AI模型如何处理持续数天、模仿真实办公室工作的场景。该基准包含602项任务,涵盖Word、Excel、PDF、电子邮件和日历工具等常用应用程序。这些任务分为两大类:300个源自OfficeBench的真实场景,称为OdysseyBench+;以及302个新构建的、极具挑战性的情况,称为OdysseyBench-Neo。这两个部分都要求模型从多日对话中提取信息,制定多步计划,并在各种办公工具之间同步操作。
这些AI代理面临的主要挑战在于解决长期、对话驱动的办公任务。在OdysseyBench+和OdysseyBench-Neo两类任务中,OpenAI的o3模型持续领先于GPT-5。在OdysseyBench-Neo(包含最严苛的手工设计任务)上,o3取得了61.26%的成功率,显著优于GPT-5的55.96%和GPT-5-chat的57.62%。在需要同时使用三个应用程序的任务上,性能差距进一步扩大,o3得分为59.06%,而GPT-5为53.80%。
OdysseyBench+的结果也反映了这一趋势。在此,o3得分为56.2%,击败了GPT-5的54.0%和GPT-5-chat的40.3%。在涉及协调两个或三个应用程序的任务中,这种差异变得更加明显,因为上下文理解和细致规划至关重要。有趣的是,GPT-5-chat在OdysseyBench-Neo上出人意料地优于GPT-5。研究人员将此归因于Neo任务侧重于基于对话的协助,这与GPT-5-chat的对话优势相符。相反,OdysseyBench+包含更多分散的、非对话的场景,在这种情况下,侧重推理的GPT-5在从不连贯输入中提取相关信息方面表现出更好的能力。值得注意的是,该研究没有具体说明GPT-5的推理设置,例如其“思考时间”或特定的代理参数,也没有将更高级的GPT-5 Pro模型纳入评估。
这些发现具有重要意义,尤其是OpenAI正积极致力于开发能够“思考”数小时甚至数天的AI代理,其最终目标是在医学和AI安全等领域生成新颖想法并实现研究自动化。OdysseyBench可能被证明是这些新兴长周期系统的一个关键基准。同时,结果也微妙地揭示了进步速度可能放缓的迹象:虽然o3和GPT-5都代表了对早期模型的明显进步,但从o3到GPT-5的能力并没有可辨别的飞跃,尤其考虑到o3仅在四月份才正式发布。
对基准测试结果的仔细检查揭示了当前AI代理在复杂工作流程中面临的几个持续挑战。模型经常忽略关键文件、跳过必要步骤,或尝试使用错误的工具执行给定任务。例如,一些代理在Word中创建原始文本之前尝试生成PDF文件,或在起草审查文档之前未能从PDF中提取内容。涉及创建或编辑DOCX和XLSX文件的任务尤其容易出错,需要精确、多步骤的协调——这是代理持续 struggling 的领域。研究人员得出结论,这些问题指向一个更广泛、更根本的挑战:当今的AI代理仍然难以应对跨不同工具、时间范围和上下文的任务所需的精确、多阶段规划。对于有兴趣进一步探索的人,OdysseyBench和HOMERAGENTS框架在GitHub上公开可用。