OPPO研究:大幅降低AI智能体成本,同时保持卓越性能

Marktechpost

人工智能智能体,特别是那些利用GPT-4和Claude等大型语言模型(LLMs)强大推理能力的智能体,其快速发展已解锁了处理复杂多步骤任务前所未有的能力。然而,这项显著进步也伴随着一个巨大的隐性成本:大规模运行这些复杂系统日益增长的开销。这种日益沉重的财务负担已开始阻碍其广泛部署,促使AI社区提出一个关键问题:这些强大的智能体是否正变得过于昂贵,以至于令人望而却步?OPPO AI智能体团队最近的一项研究提供了一个令人信服的答案,它不仅量化了问题,还通过其“高效智能体”框架提出了一个切实可行的解决方案。

核心问题在于高级AI智能体的操作机制。为了完成一项复杂的任务,这些系统通常需要对其底层大型语言模型进行数百次API调用。当扩展到数千用户或复杂的企业工作流程时,最初看似微不足道的每次调用费用会迅速膨胀成难以承受的运营成本,使可扩展性从一个愿望变成了一个遥不可及的梦想。认识到这一迫在眉睫的挑战,OPPO团队进行了一项系统性调查,精确剖析了智能体系统中成本累积的环节,更重要的是,确定了常见任务所需的真实复杂程度。

他们研究发现的核心是一个新引入的指标:“单次通过成本”(cost-of-pass)。这项创新衡量标准涵盖了为某个问题生成正确答案所需的总财务支出。它细致地计算了与语言模型交换信息的基本单位——tokens的成本,以及模型在首次尝试中实现准确性的固有效率。研究结果令人瞩目:虽然Claude 3.7 Sonnet等顶级模型在准确性基准测试中始终领先,但其单次通过成本可能是GPT-4.1等替代方案的三到四倍。对于要求不高的任务,像Qwen3-30B-A3B这样的小型模型,尽管性能略有下降,却能大幅降低运营成本,通常只需几美分。

该研究精确指出了导致AI智能体开支不断上升的四个主要驱动因素。首先,主干模型的选择被证明至关重要。例如,Claude 3.7 Sonnet在具有挑战性的基准测试中达到了值得称赞的61.82%准确率,但每次成功任务的成本高达3.54美元。相比之下,GPT-4.1在保持53.33%的稳健准确率的同时,将成本大幅削减至仅0.98美元。对于优先考虑速度和低成本而非最高准确率的场景,像Qwen3这样的模型能将基本任务的费用进一步降至约0.13美元。

其次,团队研究了规划和扩展策略的影响。出人意料的是,研究显示过度的内部规划步骤,即“过度思考”,往往会导致成本显著增加,而成功率却没有相应提升。同样,复杂的扩展技术,例如允许智能体探索多个选项的“N中选优”(Best-of-N)方法,消耗了大量的计算资源,而准确性仅有微不足道的改善。

第三,智能体利用外部工具的方式起着关键作用。虽然整合谷歌和维基百科等多样化搜索来源通常能在一定程度上提升性能,但采用过于复杂的浏览器操作,例如复杂的向上或向下翻页导航,会增加大量成本,却未带来相应的益处。最有效的方法是保持工具使用简单而广泛。

最后,该研究调查了智能体记忆配置的影响。令人惊讶的是,最简单的记忆设置——仅跟踪先前的行动和观察——展现了低成本和高效能之间的最佳平衡。添加更复杂的记忆模块会使智能体变得更慢、更昂贵,而性能提升却微乎其微。

综合这些洞察,OPPO团队设计了“高效智能体”蓝图。该框架倡导一种战略性结合:采用像GPT-4.1这样智能且成本效益高的模型,限制智能体的内部规划步骤以避免不必要的计算周期,利用广泛但不过于复杂的外部搜索策略,并保持精简、简单的记忆系统。实际成果令人印象深刻:“高效智能体”实现了与OWL等领先开源竞争对手96.7%的性能,同时将运营成本显著降低了28.4%。

这项研究标志着围绕AI智能体开发讨论的一个关键转变。它强调,AI的真正智能不仅在于原始计算能力,同样在于其实用且具成本效益的部署能力。对于任何参与构建或部署AI智能体的人来说,这些发现提供了一个重要的提醒:要严格衡量“单次通过成本”,并明智地选择架构组件,挑战“越大或越复杂总是越好”的传统观念。“高效智能体”框架的开源性质进一步普及了这些见解,为使下一代AI智能体既智能又经济实惠提供了切实的路线图——随着AI持续渗透到商业和日常生活的方方面面,这是至关重要的一步。