CoAct-1:混合AI智能体刷新OSWorld基准测试记录

Marktechpost

来自南加州大学、Salesforce AI和华盛顿大学的研究人员组成的合作团队,共同发布了CoAct-1,一个旨在显著推进自主计算机操作的突破性多智能体系统。这个创新系统重新定义了AI智能体与计算机的交互方式,将直接编码提升为主要操作,使其与传统的图形用户界面(GUI)操作并驾齐驱。这一根本性转变解决了AI在处理复杂、多步骤计算机任务时长期存在的效率和可靠性挑战。在极具挑战性的OSWorld基准测试中,CoAct-1建立了一个新的性能标杆,实现了前所未有的60.76%的成功率,使其成为首个超越60%门槛的此类AI智能体。

传统的计算机操作AI智能体通常完全依赖基于像素的GUI交互,通过模拟人类用户来导航界面、点击元素和输入。尽管这种方法允许它们复制人类工作流程,但它往往脆弱且效率低下,特别是对于涉及杂乱界面、跨多个应用程序的工作流或复杂操作系统操作的复杂任务。即使一次错误的点击也可能使整个工作流脱轨,并且随着任务复杂性的增加,所需步骤的数量可能会急剧膨胀。为缓解这些问题,人们探索了通过高级规划器增强GUI智能体的方法,但这些方法最终仍受限于以GUI为中心的动作空间固有的局限性,这限制了效率和整体鲁棒性。

CoAct-1通过其混合架构引入了一种根本不同的方法,该架构集成了三个专业AI智能体。其核心是编排器(Orchestrator),一个高级规划器,负责将复杂任务分解为更小的子任务。至关重要的是,编排器根据任务的具体要求,动态地将每个子任务委托给程序员智能体(Programmer)或GUI操作员智能体(GUI Operator)。程序员智能体通过执行直接的Python或Bash脚本来处理后端操作,例如文件管理、数据处理或环境配置,从而绕过了通常繁琐且容易出错的GUI操作序列。作为补充,GUI操作员智能体利用一个能够解释视觉信息和语言的AI模型,在人类般的UI导航不可或缺时与图形界面进行交互。这种混合模型允许CoAct-1战略性地用简洁、可靠的代码执行来替代脆弱且冗长的鼠标键盘操作,同时在必要时精确地利用GUI交互。

该系统的能力在OSWorld上进行了严格评估,OSWorld是一个领先的基准测试,包含369项多样化任务,涵盖办公生产力套件、集成开发环境(IDE)、网络浏览器、文件管理器和多应用工作流。OSWorld中的每项任务都反映了现实世界的语言目标,并使用粒度化的、基于规则的评分系统进行评估。CoAct-1的性能令人瞩目:它在100+步骤类别中实现了60.76%的整体成功率,超越了领先的框架,如GTA-1(53.10%)、OpenAI CUA 4o(31.40%)和UI-TARS-1.5(29.60%)。此外,它展现了卓越的效率,成功完成任务平均仅需10.15个步骤,远少于GTA-1的15.22个步骤或UI-TARS的14.90个步骤。虽然OpenAI CUA 4o的步骤数较少(6.14),但其成功率显著低于31.40%,这突显了CoAct-1在速度和准确性之间的平衡。该系统在多应用工作流(成功率47.88%,而GTA-1为38.34%)和操作系统任务(75.00%)方面表现出特别的优势,在生产力和IDE领域始终领先或与最佳性能持平。

几个关键见解阐明了CoAct-1取得显著进步的驱动因素。直接执行编码操作的能力取代了大量冗余且容易出错的GUI序列;例如,一个简单的脚本可以自动完成批处理图像大小调整或高级文件操作,否则这将需要数十次点击,从而大大减少了步骤和潜在的故障点。编排器的动态委托确保了编码和GUI操作的最佳利用,适应任务需求。此外,研究表明,集成更强大的底层AI模型显著提高了性能;实现最高60.76%得分的配置利用了OpenAI CUA 4o作为GUI操作员智能体,OpenAI o3作为编排器,以及o4-mini作为程序员智能体。这种关联强调了系统的效率直接有助于其可靠性,因为更少的步骤本身就减少了出错的机会,这是任务完成成功的一个有力预测指标。

通过将编码作为与GUI操作并列的一等系统操作,CoAct-1在自主计算机智能体的成功率和效率方面实现了显著飞跃。其混合架构和动态执行逻辑为该领域树立了新的基准,预示着现实世界计算机自动化方面的强劲进展。