CoAct-1：混合AI智能体刷新OSWorld基准测试记录

来自南加州大学、Salesforce AI和华盛顿大学的研究人员组成的合作团队，共同发布了CoAct-1，一个旨在显著推进自主计算机操作的突破性多智能体系统。这个创新系统重新定义了AI智能体与计算机的交互方式，将直接编码提升为主要操作，使其与传统的图形用户界面（GUI）操作并驾齐驱。这一根本性转变解决了AI在处理复杂、多步骤计算机任务时长期存在的效率和可靠性挑战。在极具挑战性的OSWorld基准测试中，CoAct-1建立了一个新的性能标杆，实现了前所未有的60.76%的成功率，使其成为首个超越60%门槛的此类AI智能体。

传统的计算机操作AI智能体通常完全依赖基于像素的GUI交互，通过模拟人类用户来导航界面、点击元素和输入。尽管这种方法允许它们复制人类工作流程，但它往往脆弱且效率低下，特别是对于涉及杂乱界面、跨多个应用程序的工作流或复杂操作系统操作的复杂任务。即使一次错误的点击也可能使整个工作流脱轨，并且随着任务复杂性的增加，所需步骤的数量可能会急剧膨胀。为缓解这些问题，人们探索了通过高级规划器增强GUI智能体的方法，但这些方法最终仍受限于以GUI为中心的动作空间固有的局限性，这限制了效率和整体鲁棒性。

CoAct-1通过其混合架构引入了一种根本不同的方法，该架构集成了三个专业AI智能体。其核心是编排器（Orchestrator），一个高级规划器，负责将复杂任务分解为更小的子任务。至关重要的是，编排器根据任务的具体要求，动态地将每个子任务委托给程序员智能体（Programmer）或GUI操作员智能体（GUI Operator）。程序员智能体通过执行直接的Python或Bash脚本来处理后端操作，例如文件管理、数据处理或环境配置，从而绕过了通常繁琐且容易出错的GUI操作序列。作为补充，GUI操作员智能体利用一个能够解释视觉信息和语言的AI模型，在人类般的UI导航不可或缺时与图形界面进行交互。这种混合模型允许CoAct-1战略性地用简洁、可靠的代码执行来替代脆弱且冗长的鼠标键盘操作，同时在必要时精确地利用GUI交互。

该系统的能力在OSWorld上进行了严格评估，OSWorld是一个领先的基准测试，包含369项多样化任务，涵盖办公生产力套件、集成开发环境（IDE）、网络浏览器、文件管理器和多应用工作流。OSWorld中的每项任务都反映了现实世界的语言目标，并使用粒度化的、基于规则的评分系统进行评估。CoAct-1的性能令人瞩目：它在100+步骤类别中实现了60.76%的整体成功率，超越了领先的框架，如GTA-1（53.10%）、OpenAI CUA 4o（31.40%）和UI-TARS-1.5（29.60%）。此外，它展现了卓越的效率，成功完成任务平均仅需10.15个步骤，远少于GTA-1的15.22个步骤或UI-TARS的14.90个步骤。虽然OpenAI CUA 4o的步骤数较少（6.14），但其成功率显著低于31.40%，这突显了CoAct-1在速度和准确性之间的平衡。该系统在多应用工作流（成功率47.88%，而GTA-1为38.34%）和操作系统任务（75.00%）方面表现出特别的优势，在生产力和IDE领域始终领先或与最佳性能持平。

几个关键见解阐明了CoAct-1取得显著进步的驱动因素。直接执行编码操作的能力取代了大量冗余且容易出错的GUI序列；例如，一个简单的脚本可以自动完成批处理图像大小调整或高级文件操作，否则这将需要数十次点击，从而大大减少了步骤和潜在的故障点。编排器的动态委托确保了编码和GUI操作的最佳利用，适应任务需求。此外，研究表明，集成更强大的底层AI模型显著提高了性能；实现最高60.76%得分的配置利用了OpenAI CUA 4o作为GUI操作员智能体，OpenAI o3作为编排器，以及o4-mini作为程序员智能体。这种关联强调了系统的效率直接有助于其可靠性，因为更少的步骤本身就减少了出错的机会，这是任务完成成功的一个有力预测指标。

通过将编码作为与GUI操作并列的一等系统操作，CoAct-1在自主计算机智能体的成功率和效率方面实现了显著飞跃。其混合架构和动态执行逻辑为该领域树立了新的基准，预示着现实世界计算机自动化方面的强劲进展。

CoAct-1：混合AI智能体刷新OSWorld基准测试记录

相关文章

新基准：Inclusion Arena 揭示大模型真实世界表现排名

AI视觉模型凭空生幻：人类明察秋毫，机器却深陷错觉

AI脑机接口突破：新植入物解码内心独白，重塑沟通未来