OpenAI 的 ChatGPT Agent：PC 控制与任务自动化详解

OpenAI 推出了 ChatGPT Agent，这是其旗舰人工智能模型的一个重大演进。这个高级迭代配备了虚拟计算环境和集成工具包，从根本上改变了其能力。该 Agent 不再局限于单纯的分析或数据检索，现在可以通过直接控制用户的电脑来执行复杂的、多步骤的任务。这项功能上的飞跃，仍需大量的人工输入和监督，是在人工智能快速发展时期到来的，就在 Meta 研究人员报告其 AI 模型表现出独立自我改进迹象之前，以及 OpenAI 发布 GPT-5 之前。

借助 ChatGPT Agent，用户可以指示大型语言模型不仅处理信息，还能对其采取行动。例如，用户可以命令该 Agent 审查日历并汇总即将发生的事件简报，或者筛选大量数据集并将其综合为简洁的摘要或演示文稿。虽然早期的大型语言模型可能只提供日式早餐的食谱，但 ChatGPT Agent 具备完全规划餐点甚至为指定数量的客人购买必要食材的能力。

尽管其新增功能令人印象深刻，但该模型并非没有局限性。像所有当前的 AI 模型一样，其空间推理能力仍然薄弱，这阻碍了涉及物理导航或规划的任务。此外，它缺乏真正的持久记忆，实时处理信息，无法可靠回忆或在即时对话上下文之外引用过去的交互。

尽管如此，ChatGPT Agent 在 OpenAI 的内部基准测试中显示出显著改进。在“人类的最后一次考试”（一项评估模型在各学科回答专家级问题的能力的 AI 基准）中，该 Agent 的准确率是 OpenAI o3 无工具版本的两倍多，从 20.3% 提高到 41.6%。它还显著优于其他 OpenAI 工具和缺少浏览器、虚拟计算机等集成工具的自身版本。在具有挑战性的“FrontierMath”基准测试中，ChatGPT Agent 凭借其全面的工具包，再次大幅超越了以前的模型。

该 Agent 的架构建立在早期 OpenAI 创新衍生的三个基础支柱之上。第一个是“Operator”，一个旨在为用户自主浏览网页的 Agent。第二个是“深度研究”，旨在高效梳理和综合大量数据集。最后一个组件集成了 ChatGPT 自身的早期版本，这些版本以其会话流畅性和演示能力而闻名。根据摩根州立大学教授兼数据工程与预测分析（DEPA）研究实验室主任 Kofi Nyarko 的说法，这种集成意味着该 Agent“可以在人类监督下自主浏览网页、生成代码、创建文件等”。

然而，Nyarko 很快强调，新 Agent 远未实现完全自主。他警告说，“幻觉、用户界面脆弱性或误解可能导致错误。内置的安全措施，如权限提示和可中断性，是必不可少的，但不足以完全消除风险。”

OpenAI 自己也公开承认了该 Agent 增加自主性所带来的内在危险。公司代表表示，ChatGPT Agent 拥有“高生物和化学能力”，这引发了人们对其可能协助制造化学或生物武器的担忧。生物安全专家将此类 AI Agent 视为相对于现有资源（如化学实验室和教科书）的“能力升级途径”。AI 可以即时利用无数资源，综合跨科学学科的数据，提供类似于专家导师的迭代故障排除，浏览供应商网站，填写订单，甚至帮助绕过基本的验证检查。

凭借其虚拟计算机，该 Agent 还可以自主与文件、网站和在线工具进行交互，如果被滥用，则会放大潜在危害。数据泄露、数据操纵和行为错位（如金融欺诈）的风险显著增加，尤其是在提示注入攻击（恶意命令巧妙地嵌入用户输入中）或其他形式的劫持事件中。Nyarko 指出，这些风险是传统 AI 模型和大型语言模型中已经固有的风险之外的，包括错误的放大、公共数据引入的偏见、责任框架的复杂化以及无意中助长心理依赖。

为应对更具代理性的模型所带来的新威胁，OpenAI 工程师还加强了多项安全措施。这些措施包括全面的威胁建模、双重用途拒绝训练（即教导模型拒绝涉及可能兼具益处和恶意用途数据有害请求）、漏洞赏金计划以及专注于生物防御的专家“红队”演习。尽管付出了这些努力，安全非营利组织 SaferAI 在 2025 年 7 月进行的一项风险管理评估将 OpenAI 的风险管理政策评为“弱”，在满分 100% 中仅获得 33% 的分数。同样，OpenAI 在未来生命研究所（一个著名的 AI 安全组织）编制的 AI 安全指数中仅获得 C 级评分。

OpenAI 的 ChatGPT Agent：PC 控制与任务自动化详解

相关文章

GPT-5：统一企业AI工作流，赋能业务转型与智能飞跃

萨姆·奥特曼：GPT-5发布、未来计划与用户关系

傅里叶重磅发布GR-3：首款暖心关怀型人形机器人