Salesforce CoAct-1 AI智能体:代码与点击并用,加速GUI任务
Salesforce和南加州大学的研究人员公布了一项新颖的技术,旨在赋予AI智能体一种混合能力:在执行代码的同时导航图形用户界面(GUI)。这个被称为CoAct-1的创新系统代表着一个重大飞跃,它结合了脚本的精确性与传统点击方法的直观交互,以加速工作流程并大幅减少错误。通过允许智能体绕过对于通过编程更好处理的任务而言往往脆弱且低效的鼠标点击,CoAct-1在智能体性能方面树立了新基准,以比以往方法少得多的步骤完成复杂的计算机任务。这一突破预示着更强大和可扩展的自动化,为广泛的实际应用打开了大门。
当前的计算机使用智能体主要依赖于解释视觉信息和语言的AI模型,以模仿人类使用鼠标和键盘进行交互。尽管这些基于GUI的智能体可以执行各种任务,但当面对冗长、复杂的工作流程时,它们经常会遇到困难,特别是在具有密集菜单和众多选项的应用程序中,例如办公生产力套件。例如,考虑一个任务,要求智能体在电子表格中找到一个特定的表格,过滤其内容,然后将其保存为新文件。这样的操作需要精确而扩展的GUI操作序列。这正是脆弱性出现的地方。正如研究人员在他们的论文中所指出的,现有智能体经常难以处理视觉歧义——区分视觉上相似的图标或菜单项——以及在长序列中发生单个错误的累积概率。一次错误的点击或对UI元素的误解就可能使整个任务脱轨。
为了缓解这些挑战,许多研究人员专注于通过高级规划器来增强GUI智能体,利用强大的推理模型将用户的总体目标分解为一系列更小、更易于管理的子任务。虽然这种结构化方法提高了性能,但它并没有从根本上解决导航菜单和点击按钮的问题,即使对于那些只需几行代码就能更直接、更可靠地完成的操作也是如此。
这正是CoAct-1(Computer-using Agent with Coding as Actions的缩写)提供变革性解决方案的地方。CoAct-1旨在将GUI操作的直观、类人优势与通过代码进行直接系统交互的精确性、可靠性和效率相结合,它作为一个由三个专业智能体组成的协作团队运作:编排器(Orchestrator)、程序员(Programmer)和GUI操作器(GUI Operator)。编排器充当中央规划器,分析用户的目标,将其分解为子任务,并智能地将每个子任务委派给最合适的智能体。文件管理或数据处理等后端操作被分配给程序员,它熟练地编写和执行Python或Bash脚本。对于需要按钮点击或视觉界面导航的前端任务,编排器则转交给GUI操作器,这是一个专门为视觉交互设计的AI模型。这种动态委派使得CoAct-1能够在适当时策略性地绕过低效的GUI序列,转而采用强大、一次性的代码执行,同时对于不可或缺的视觉交互任务仍能加以利用。工作流程是迭代的,每个子任务完成后都会向编排器返回摘要和屏幕截图,编排器随后确定后续行动或结束任务。程序员和GUI操作器都利用复杂的解释器来测试和完善他们的行动,确保准确性。
CoAct-1的能力在OSWorld上进行了严格测试,这是一个全面的基准测试,包含369个真实世界的任务,涵盖浏览器、集成开发环境和办公应用程序。结果令人信服:CoAct-1取得了60.76%的最新最高成功率。在程序化控制具有明显优势的类别中,例如操作系统级任务和多应用程序工作流,性能提升尤为显著。例如,考虑一个操作系统级任务,如在复杂的文件夹结构中查找所有图像文件、调整它们的大小,然后压缩整个目录。纯粹基于GUI的智能体将需要漫长且容易出错的点击和拖动序列。相反,CoAct-1可以将整个工作流程委派给其程序员智能体,该智能体可以通过一个强大脚本完成任务。除了更高的成功率,该系统效率也大大提高,平均只需10.15步就能解决任务,这比领先的纯GUI智能体(如GTA-1)通常所需的15.22步有了显著改进。这种效率至关重要,因为研究人员观察到一个明显的趋势:需要更多操作的任务更容易失败。通过减少步骤数量,CoAct-1不仅加快了任务完成速度,更重要的是,它最大限度地减少了出错的机会,为通用计算机自动化铺平了一条更强大、更可扩展的道路。
这项技术的潜在影响远远超出了通用生产力,对于寻求自动化复杂、多工具流程(其中完整的API访问通常是一种奢望)的企业领导者而言,它提供了巨大的价值。论文的合著者、Salesforce应用AI研究总监Ran Xu强调客户支持是一个很好的例子。服务代理经常使用各种工具——从Salesforce等通用平台到医疗保健领域的EPIC等行业特定应用程序,以及众多定制工具——来处理客户请求。其中许多工具缺乏API访问,这使得它们成为CoAct-1的理想候选者,CoAct-1可以利用任何可用的交互方法,无论是API、代码还是直接屏幕交互。Xu还指出在销售领域有高价值的应用,例如大规模潜在客户开发和自动化簿记,以及在营销领域用于客户细分和营销活动资产生成等任务。
尽管其基准性能令人印象深刻,但现实世界的企业环境带来了独特的挑战,包括遗留软件和不可预测的用户界面。这引发了关于鲁棒性、安全性和人类监督必要性的关键问题。确保编排器智能体在面对不熟悉的应用程序时做出正确选择是一个核心挑战。根据Xu的说法,使CoAct-1等智能体对定制企业软件具有鲁棒性,需要在一个真实的模拟环境中进行广泛训练。最终目标是一个系统,其中智能体可以向人类智能体学习,在沙盒中训练,然后在人类指导和防护措施下实时操作。程序员智能体执行自身代码的能力也带来了明显的安全隐患,特别是基于模糊用户请求执行有害代码的风险。Xu强调,强大的遏制措施至关重要,访问控制和沙盒是关键。人类必须理解其含义并授予AI访问权限以确保安全。沙盒和防护措施对于在敏感系统上部署智能体之前验证其行为至关重要。最终,在可预见的未来,克服歧义可能仍需要人类的参与。Xu设想了一种分阶段的方法,从所有任务都由人类参与开始,最终有些任务实现完全自主。然而,对于关键任务操作,人类验证仍将至关重要,以确保安全性和准确性。