OpenAI GPT-5发布:专家级AI模型、强大功能与早期反响
OpenAI 发布了 GPT-5,将其最新的大型语言模型定位为“专家级”基础系统,有望重新定义 AI 与复杂任务的交互方式。GPT-5 被宣传为一种统一架构,能根据复杂性智能地将查询路由到专业的子模型,承诺为高难度问题提供“博士级”响应,同时保持对简单请求的低延迟。这标志着与以往模型的重大转变,此前用户需手动选择速度或深度。此次发布引发了热情与怀疑并存的反应。
GPT-5 进步的核心在于其强大的性能提升,尤其是在编码和事实准确性方面。在真实世界的软件工程基准测试 SWE-bench Verified 中,GPT-5 取得了 74.9% 的成绩,较其前身 o3 的 69.1% 有显著提升;在多语言编码测试 Aider Polyglot 中,得分高达 88%。这使得模型能够从单个提示词生成完整的全栈应用程序,处理从依赖项安装到实时 UI 预览的所有环节,并在复杂的前端生成方面表现出色。至关重要的是,GPT-5 大幅减少了“幻觉”现象。当与网络搜索结合时,其响应包含事实错误的几率比 GPT-4o 减少约 45%;在专用推理模式下,与 OpenAI o3 相比,这一数字更是减少了 80%。实际测试突显了这一点:在开放式事实查询提示中,GPT-5 的“幻觉”减少了六倍;当遇到图像缺失时,它给出自信但错误答案的几率仅为 9%,与 o3 的 86.7% 形成鲜明对比。
除了文本,GPT-5 还拓展了多模态边界,在视觉推理的 MMMU 基准测试中达到了 84.2% 的新 SOTA(State of the Art)水平。它能高精度地解释图像、图表和示意图,生成或编辑前端资产,创建 SVG 动画,甚至即时开发 3D 游戏。ChatGPT 的语音界面现在拥有自然人声,能解释摄像头输入,并动态调整其回复风格。对于开发者而言,API 引入了关键参数,如用于权衡延迟与深度的 reasoning_effort
和用于控制输出简洁度的 verbosity
。自定义工具现在支持纯文本输入,无需 JSON,上下文窗口也已扩展到 400K tokens,是 GPT-4 容量的两倍,使其能有效合成大量文档。
GPT-5 被专门训练成一个协作型 AI 队友,展现出自主性、沟通能力和上下文管理能力。它能提供预先计划、提供进度更新、自动运行测试,甚至能通过迭代构建进行自我调试。它在 Scale 的多挑战基准测试中获得了 70% 的分数,证明了其在长时间工具调用链中保持上下文的能力,促使 Cursor 将 GPT-5 作为其默认模型。早期企业测试者已发现引人注目的用例:安进(Amgen)利用它对复杂的科学数据进行深度推理;西班牙对外银行(BBVA)的财务分析任务从数周缩短到数小时;奥斯卡健康(Oscar Health)则将其用于临床推理,尤其是在映射复杂的医疗政策方面。美国联邦政府计划向两百万名员工提供访问权限。
OpenAI 为 GPT-5 的定价设计了分级模型。全功能 GPT-5 的价格为每百万输入 token 1.25 美元,每百万输出 token 10.00 美元,作为 ChatGPT 和 API 的默认模型。还有更经济的 GPT-5 Mini,以及高度优化的 GPT-5 Nano,后者专为边缘和对延迟敏感的应用设计,价格大约便宜 25 倍。访问权限是分级的,免费用户最初使用 GPT-5,随后过渡到 Mini;Plus 和 Pro 订阅者将获得逐步提高或无限制的使用额度。团队、企业和教育账户将获得慷慨的默认访问权限,所有经过验证的组织都能立即获得 API 访问。
在安全性方面,GPT-5 引入了“安全完成”方法,超越了对敏感请求的彻底拒绝。它旨在安全边界内最大限度地提供帮助,提供部分答案或解释限制,尤其是在“两用”领域,减少无用的套话。尽管有这些进步,早期反响仍褒贬不一。尽管其增强的编码能力、幻觉减少、API 改进和报告的时间节省赢得了赞誉,但一些观察家认为 GPT-5 只是渐进式的“GPT-4.5”,而非革命性的飞跃。有人对基准测试演示中的“情绪图表”(vibecharting)表示担忧——即视觉上夸大微小进步,例如在 SWE-bench 上仅比最先进水平提高了 0.4%。演示中的技术错误,如对伯努利效应的不正确解释,加剧了对其“博士级”智能的怀疑。此外,关于 GPT-5 究竟是真正的统一模型还是巧妙的编排,疑问依然存在,这可能会限制其在延迟敏感应用中的优势。