GPT-5：泄露信息暗示仅适度升级，OpenAI 未迎突破

OpenAI 正准备推出其下一代旗舰大型语言模型 GPT-5，但预期它将是一次适度升级，而非革命性飞跃。继 2023 年 3 月发布的 GPT-4 之后，GPT-5 的内部测试表明其在编程、数学和执行复杂指令（包括自动化客户服务工作流程）等领域取得了进展。然而，预期中的能力飞跃远小于从 GPT-3 (2020) 到 GPT-4 (2023) 的巨大进步。

熟悉评估的消息人士指出，GPT-5 将促进更易于用户使用的应用程序，并展示其计算资源管理能力的提高。尽管有这些进步，但整体改进被描述为渐进式的。

这种观察到的停滞与著名人工智能人物的预测相符。微软联合创始人比尔·盖茨在 2023 年末就曾预言这一点，而大语言模型评论家如加里·马库斯、前 OpenAI 首席科学家伊利亚·苏茨克维尔以及 Meta 的杨·勒昆也反复强调，支撑当前大多数大型语言模型的 Transformer 架构正在达到其极限。

OpenAI 内部的“猎户座”（Orion）模型是这些挑战的一个典型例子。猎户座最初是作为 GPT-4o 的直接继任者开发的，但未能实现预期的收益。它随后于 2025 年初以 GPT-4.5 的名义发布，而非获得 GPT-5 的称号。据报道，GPT-4.5 影响甚微，运行速度比 GPT-4o 更慢，成本更高，并迅速淡出人们的视线。根据 The Information 的说法，一个核心问题是，适用于较小模型的预训练修改无法有效地扩展到较大的模型。与此同时，OpenAI 面临着用于训练的高质量网络数据供应日益减少的问题。截至 2025 年 6 月，OpenAI 正在开发的所有模型中，没有一个被认为足够强大，可以被称为 GPT-5。

这一挑战并非 OpenAI 独有。Anthropic 最近的 Claude 4 模型也仅提供了适度的整体改进，除了在编码性能方面有显著提升。Anthropic 已经采用了混合架构，将大型语言模型与专业推理组件相结合，这很可能也是 OpenAI 可能为 GPT-5 采用的方式。

除了其主要的生成模型外，OpenAI 还一直在开发“大型推理模型”（LRMs）。这些模型在分配更多计算能力时，在复杂任务上表现更好，并可能成为数学、网络搜索和编程的宝贵工具——甚至可能为语言模型指出全新的方向。然而，关于它们的泛化能力和能源需求仍存在未解之谜。

OpenAI 在这一领域的一个重大突破是 2023 年末的 Q* 模型，据报道它解决了以前从未遇到的数学问题。在此基础上，OpenAI 开发了 o1 和 o3 模型，两者都基于 GPT-4o，并专为特定应用而设计。o1 和 o3 都使用强化学习 (RL) 进行训练，其中 o3“教师模型”获得了显著更多的计算资源和对网络及代码源的直接访问。在 RL 训练期间，模型会生成专家级问题的答案，并通过将其响应与人类解决方案进行比较来改进自身。

然而，当这些模型被改编用于聊天时，据报道 o3 失去了一些能力。正如一位消息人士告诉 The Information 的那样，聊天版本不得不“被简化”，因为它没有为真实的对话进行足够的训练，这损害了其在聊天和 API 设置中的性能。今年 4 月的 ARC-AGI 基准测试突出了这个问题，其中公开的 o3 版本在艰难的谜题测试中表现不如内部基础模型，表明许多原始推理能力在过渡到聊天后未能保留。

o3-pro 模型进一步说明了这种微妙的平衡。尽管专家们高度评价 o3-pro 在科学、编程和商业任务方面的表现，但它在简单的日常任务上却举步维艰。例如，回复“你好，我是 Sam Altman”需要几分钟，并产生 80 美元的计算成本，只为一个微不足道的答案——这是一个典型的过度思考案例。GPT-5 旨在在专业推理能力和实用对话效用之间取得平衡。

尽管存在这些技术障碍，GPT-5 旨在推动“代理系统”的进步——即人工智能可以独立执行多个步骤的应用程序。新模型应该能够更有效地遵循复杂指令，减少人工监督。GPT-5 预计也将在能力上超越 GPT-4o，而无需使用更多的计算资源。内部测试显示，它更擅长评估哪些任务需要更多或更少的计算能力，这可以提高流程效率，并有助于避免 o3-pro 等模型中出现的过度思考。

对于 OpenAI 而言，即使 GPT-5 只有适度改进，也可能足以保持客户和投资者的参与。尽管运营成本高昂，该公司仍在快速增长。在与编码相关的 AI 竞争领域中，Anthropic 目前凭借其 Claude 模型处于领先地位，OpenAI 希望通过 GPT-5 重新夺回优势。

OpenAI 正在越来越多地利用强化学习，尤其是一种“通用验证器”，它能自动评估模型响应的质量——即使对于创意写作等主观任务也是如此。这个通用验证器也用于 OpenAI 最近在国际数学奥林匹克竞赛中获得金牌的模型。OpenAI 研究员 Jerry Tworek 曾暗示，这个 RL 系统可能成为通用人工智能 (AGI) 的基础。

GPT-5：泄露信息暗示仅适度升级，OpenAI 未迎突破

相关文章

GPT-5 即将到来：AI与通用人工智能（AGI）的潜在颠覆者

中美AI巅峰对决：全球主导权争夺战升级

OpenAI估值或达5000亿美元，超越SpaceX成最值钱私企