OpenAI 的 ChatGPT Agent：PC 控制与高级任务自动化

OpenAI 推出了 ChatGPT agent，这是其旗舰人工智能模型的一项重大演进，现已配备虚拟计算机和集成工具包。此次升级使 AI 能够执行此前超出其范围的复杂多步骤任务，包括直接控制用户的计算机并代其完成任务。这个功能更强大的版本，尽管仍需要大量人工监督，但在 Meta 研究人员报告其自身 AI 模型表现出独立自我改进迹象后不久问世，也早于 OpenAI 最新聊天机器人迭代 GPT-5 的发布。

借助 ChatGPT agent，用户现在不仅可以指示大型语言模型（LLM）分析信息或收集数据，还可以根据这些数据采取行动。例如，用户可以命令该代理扫描日历并汇总即将发生的事件和提醒，或者处理大型数据集并将其浓缩为简洁的概要或演示幻灯片。传统的 LLM 可能会提供日式早餐的食谱，而 ChatGPT agent 则可以更进一步，为特定数量的客人规划并采购所有必要的食材。

尽管功能增强，新模型仍面临固有的局限性。与所有 AI 模型一样，其空间推理能力仍然薄弱，使得规划物理路线等任务具有挑战性。它还缺乏真正的持久记忆，仅在当下处理信息，无法可靠地回忆或引用超出即时上下文的过往交互。

尽管如此，ChatGPT agent 在 OpenAI 自己的基准测试中表现出显著改进。在“人类的最后一次考试”这一旨在评估模型在各个学科回答专家级问题的熟练程度的 AI 基准测试中，该代理的准确率翻了一倍多，达到 41.6%，而没有工具的 OpenAI o3 得分为 20.3%。它还显著优于其他 OpenAI 工具，以及自身缺乏浏览器和虚拟计算机等集成功能的版本。在具有挑战性的数学基准测试“FrontierMath”中，ChatGPT agent 凭借其全面的工具套件，再次大幅超越了之前的模型。

该代理的架构建立在源自早期 OpenAI 产品的三个基本要素之上。第一个是“Operator”，一个旨在通过自己的虚拟浏览器浏览网络的代理。第二个是“深度研究”，专注于筛选和综合大量数据。最后一个组件集成了 ChatGPT 的早期版本，利用它们在会话流畅性和演示方面的优势。

摩根州立大学教授兼数据工程与预测分析（DEPA）研究实验室主任 Kofi Nyarko 总结了该代理的核心功能：“本质上，它可以在人工监督下自主浏览网页、生成代码、创建文件等。”然而，Nyarko 很快强调新代理并非真正自主。他警告说：“幻觉、用户界面脆弱性或误解都可能导致错误。内置的安全措施，如权限提示和可中断性，至关重要但不足以完全消除风险。”

OpenAI 自己也公开承认了这种更自主的代理可能带来的潜在危险，并引用其“高生物和化学能力”。该公司表示担忧该代理可能协助制造化学或生物武器。与现有资源（如化学实验室和教科书）相比，AI 代理代表了生物安全专家所称的“能力升级途径”。AI 可以快速访问和合成无数资源，整合跨不同科学领域的知识，提供类似于专家导师的迭代故障排除，浏览供应商网站，填写订单表格，甚至帮助规避基本验证检查。

此外，凭借其虚拟计算机，该代理可以自主与文件、网站和在线工具交互，如果被滥用，其潜在危害会随之放大。数据泄露或操纵的风险，以及财务欺诈等错位行为的风险，在提示注入攻击（恶意指令被巧妙嵌入以劫持 AI 行为）发生时会加剧。Nyarko 进一步指出，这些风险是传统 AI 模型和 LLM 固有风险之外的。他阐述了对 AI 代理更广泛的担忧，包括自主操作如何放大错误、引入公共数据中的偏差、使责任框架复杂化以及无意中助长心理依赖。

据报道，为应对这些新威胁，OpenAI 工程师加强了一系列安全措施。这些措施包括全面的威胁建模、双重用途拒绝训练（教导模型拒绝涉及同时具有有益和恶意应用的有害请求）、漏洞赏金计划以及专家“红队演练”（一种积极攻击系统以识别弱点的过程，特别关注生物防御）。尽管做出了这些努力，安全非营利组织 SaferAI 于 2025 年 7 月进行的一项风险管理评估将 OpenAI 的风险管理政策评为“弱”，在满分 100 分中仅给出 33 分。OpenAI 还在由著名 AI 安全组织生命未来研究所编制的 AI 安全指数中获得了 C 级评分。

OpenAI 的 ChatGPT Agent：PC 控制与高级任务自动化

相关文章

GPTZero AI检测器重大更新：模型3.7b与GPT-5泛化能力

Ai2 推出 MolmoAct：赋能机器人 3D 空间推理的透明开源 AI

Genie Envisioner：可扩展机器人技术的统一视频生成AI