OpenAI GPT-5发布：专家级AI模型、强大功能与早期反响

OpenAI 发布了 GPT-5，将其最新的大型语言模型定位为“专家级”基础系统，有望重新定义 AI 与复杂任务的交互方式。GPT-5 被宣传为一种统一架构，能根据复杂性智能地将查询路由到专业的子模型，承诺为高难度问题提供“博士级”响应，同时保持对简单请求的低延迟。这标志着与以往模型的重大转变，此前用户需手动选择速度或深度。此次发布引发了热情与怀疑并存的反应。

GPT-5 进步的核心在于其强大的性能提升，尤其是在编码和事实准确性方面。在真实世界的软件工程基准测试 SWE-bench Verified 中，GPT-5 取得了 74.9% 的成绩，较其前身 o3 的 69.1% 有显著提升；在多语言编码测试 Aider Polyglot 中，得分高达 88%。这使得模型能够从单个提示词生成完整的全栈应用程序，处理从依赖项安装到实时 UI 预览的所有环节，并在复杂的前端生成方面表现出色。至关重要的是，GPT-5 大幅减少了“幻觉”现象。当与网络搜索结合时，其响应包含事实错误的几率比 GPT-4o 减少约 45%；在专用推理模式下，与 OpenAI o3 相比，这一数字更是减少了 80%。实际测试突显了这一点：在开放式事实查询提示中，GPT-5 的“幻觉”减少了六倍；当遇到图像缺失时，它给出自信但错误答案的几率仅为 9%，与 o3 的 86.7% 形成鲜明对比。

除了文本，GPT-5 还拓展了多模态边界，在视觉推理的 MMMU 基准测试中达到了 84.2% 的新 SOTA（State of the Art）水平。它能高精度地解释图像、图表和示意图，生成或编辑前端资产，创建 SVG 动画，甚至即时开发 3D 游戏。ChatGPT 的语音界面现在拥有自然人声，能解释摄像头输入，并动态调整其回复风格。对于开发者而言，API 引入了关键参数，如用于权衡延迟与深度的 reasoning_effort 和用于控制输出简洁度的 verbosity。自定义工具现在支持纯文本输入，无需 JSON，上下文窗口也已扩展到 400K tokens，是 GPT-4 容量的两倍，使其能有效合成大量文档。

GPT-5 被专门训练成一个协作型 AI 队友，展现出自主性、沟通能力和上下文管理能力。它能提供预先计划、提供进度更新、自动运行测试，甚至能通过迭代构建进行自我调试。它在 Scale 的多挑战基准测试中获得了 70% 的分数，证明了其在长时间工具调用链中保持上下文的能力，促使 Cursor 将 GPT-5 作为其默认模型。早期企业测试者已发现引人注目的用例：安进（Amgen）利用它对复杂的科学数据进行深度推理；西班牙对外银行（BBVA）的财务分析任务从数周缩短到数小时；奥斯卡健康（Oscar Health）则将其用于临床推理，尤其是在映射复杂的医疗政策方面。美国联邦政府计划向两百万名员工提供访问权限。

OpenAI 为 GPT-5 的定价设计了分级模型。全功能 GPT-5 的价格为每百万输入 token 1.25 美元，每百万输出 token 10.00 美元，作为 ChatGPT 和 API 的默认模型。还有更经济的 GPT-5 Mini，以及高度优化的 GPT-5 Nano，后者专为边缘和对延迟敏感的应用设计，价格大约便宜 25 倍。访问权限是分级的，免费用户最初使用 GPT-5，随后过渡到 Mini；Plus 和 Pro 订阅者将获得逐步提高或无限制的使用额度。团队、企业和教育账户将获得慷慨的默认访问权限，所有经过验证的组织都能立即获得 API 访问。

在安全性方面，GPT-5 引入了“安全完成”方法，超越了对敏感请求的彻底拒绝。它旨在安全边界内最大限度地提供帮助，提供部分答案或解释限制，尤其是在“两用”领域，减少无用的套话。尽管有这些进步，早期反响仍褒贬不一。尽管其增强的编码能力、幻觉减少、API 改进和报告的时间节省赢得了赞誉，但一些观察家认为 GPT-5 只是渐进式的“GPT-4.5”，而非革命性的飞跃。有人对基准测试演示中的“情绪图表”（vibecharting）表示担忧——即视觉上夸大微小进步，例如在 SWE-bench 上仅比最先进水平提高了 0.4%。演示中的技术错误，如对伯努利效应的不正确解释，加剧了对其“博士级”智能的怀疑。此外，关于 GPT-5 究竟是真正的统一模型还是巧妙的编排，疑问依然存在，这可能会限制其在延迟敏感应用中的优势。

OpenAI GPT-5发布：专家级AI模型、强大功能与早期反响

相关文章

OpenAI重磅发布GPT-5：博士级AI，免费用户可用，问题解决能力大飞跃

OpenAI GPT-5：迈向AGI的一步，但离取代人类工作仍远

萨姆·奥特曼发布GPT-5：全民免费，通往AGI之路