OpenAI GPT-OSS:轻量级开源模型,性能媲美顶尖对手
OpenAI 推出了 GPT-OSS-120b 和 GPT-OSS-20b,这是一系列基于宽松的 Apache 2.0 许可证发布的新型开源推理模型。这些纯文本模型专为强大的指令遵循、复杂的工具使用和卓越的推理能力而设计,使其成为集成到高级智能体工作流中的理想选择。此次发布彰显了 OpenAI 在更广泛的 AI 社区中致力于促进创新和协作安全的持续努力。
对于开发者和研究人员而言,一个关键问题是这些新模型如何在快速发展的开源和半开源模型生态系统中与领先的竞争者抗衡。为了提供清晰的洞察,本文将 GPT-OSS 与 GLM-4.5、Qwen3-Thinking、DeepSeek-R1 和 Kimi K2 等模型进行详细比较,从而深入了解它们各自的优势和权衡。
GPT-OSS 模型建立在 GPT-2 和 GPT-3 的基础架构之上,并显著融入了专家混合 (MoE) 设计。这种架构选择对于训练和推理期间的效率至关重要,因为它在每个 token 上仅激活一部分参数。这使得模型能够达到非常大型系统的规模,同时又能够精确控制计算成本。该系列包含两个模型:GPT-OSS-120b,总参数为 1168 亿,在 36 个层中每个 token 约有 51 亿个活跃参数;GPT-OSS-20b,总参数为 209 亿,在 24 个层中每个 token 约有 36 亿个活跃参数。这两个模型都共享多项高级架构元素,包括 2880 的残差流维度、具有 64 个查询头和 8 个键值头的分组查询注意力,以及用于增强上下文推理的旋转位置嵌入。它们还通过 YaRN 扩展了上下文长度至 131,072 个 token。
为确保实际部署,OpenAI 对 MoE 权重应用了 MXFP4 量化技术。这项创新技术使得 1200 亿参数的模型能够在单个 80GB GPU 上高效运行,而其 200 亿参数的同系模型则可以在内存低至 16GB 的硬件上运行,显著扩大了可访问性。另一个值得注意的特性是“可变推理努力”,允许开发者通过系统提示指定“低”、“中”或“高”推理级别。这会动态调整思维链 (CoT) 的长度,从而在平衡准确性、延迟和计算成本方面提供灵活性。此外,这些模型内置了对智能体工作流的支持进行训练,包括用于实时网络搜索的浏览工具、用于在 Jupyter 类环境中执行有状态代码的 Python 工具,以及支持自定义开发者函数,从而促进复杂的交错推理和用户交互。
开放模型生态系统充满了强大的竞争者,每个都拥有独特的优势。通过在各种基准测试(推理、编码和智能体工作流)中比较 GPT-OSS,可以更清晰地了解其地位。
在广泛的知识和推理任务中,GPT-OSS 相对于其规模展现出一些最高的得分。在 MMLU-Pro 上,GPT-OSS-120b 取得了令人印象深刻的 90.0%,超越了 GLM-4.5 (84.6%)、Qwen3-Thinking (84.4%)、DeepSeek-R1 (85.0%) 和 Kimi K2 (81.1%)。对于竞赛风格的数学任务,GPT-OSS 表现出色,在 AIME 2024 上达到 96.6%,在 AIME 2025 上借助工具辅助甚至达到更高的 97.9%,超越了所有其他比较模型。在 GPQA 博士级科学基准测试中,GPT-OSS-120b 使用工具得分 80.9%,与 GLM-4.5 (79.1%) 和 Qwen3-Thinking (81.1%) 相当,仅略低于 DeepSeek-R1 (81.0%)。考虑到 GPT-OSS-120b 高效的 MoE 设计,每个 token 仅激活 51 亿参数,这些数据尤为重要。相比之下,GLM-4.5 和 Qwen3-Thinking 是规模更大的密集模型,这部分解释了它们强大的工具使用和编码结果。DeepSeek-R1 也倾向于更高的参数数量和更深层的 token 使用来进行推理,而 Kimi K2 是一个更小、更专业的指令微调模型。这种效率意味着 GPT-OSS 以更轻的活跃参数占用实现了前沿的推理能力,使其成为深度推理任务的成本效益选择。
在编码和软件工程方面,现代 AI 基准测试评估模型理解大型代码库、实施更改和执行多步骤推理的能力。在 SWE-bench Verified 上,GPT-OSS-120b 得分 62.4%,紧随 GLM-4.5 (64.2%) 和 DeepSeek-R1(在智能体模式下约为 65.8%)之后。在 Terminal-Bench 上,GLM-4.5 以 37.5% 领先,其次是 Kimi K2 约 30%。GLM-4.5 在一对一智能体编码任务中也表现出色,对 Kimi K2 的胜率超过 50%,对 Qwen3 的胜率超过 80%,同时保持了基于工具的编码工作流的高成功率。同样,模型大小在这里发挥了作用;GLM-4.5 是一个比 GPT-OSS-120b 和 Kimi K2 大得多的密集模型,这使其在智能体编码方面具有优势。然而,对于寻求能够在单个 80GB GPU 上运行的强大代码编辑能力的开发者而言,GPT-OSS 提供了一个引人注目的平衡。
智能体能力——即模型能够自主调用工具、执行函数和解决多步骤任务——正变得越来越重要。在 TAU-bench Retail 上,GPT-OSS-120b 得分 67.8%,而 GLM-4.5 为 79.7%,Kimi K2 为 70.6%。对于函数调用基准 BFCL-v3,GLM-4.5 以 77.8% 领先,其次是 Qwen3-Thinking 71.9%,GPT-OSS 得分约 67-68%。这些结果突出了一种常见的权衡:GLM-4.5 在函数调用和智能体工作流方面表现出色,但它是一个明显更大、资源密集型更高的模型。相比之下,GPT-OSS 在保持可访问性的同时提供了具有竞争力的结果,即使开发者无法访问多 GPU 集群也能使用。
总而言之,开源模型领域展现出多样化的优势。GPT-OSS 以其能够以比许多密集模型更小的活跃参数占用实现前沿推理和长篇思维链能力而脱颖而出。GLM-4.5 作为一个重量级密集模型,在智能体工作流和函数调用方面领先,但需要大量计算资源。DeepSeek-R1 和 Qwen3 在更大规模下提供了强大的混合推理性能,而 Kimi K2 则以更紧凑的设置专注于专业的编码工作流。
这使得 GPT-OSS 成为一个引人注目的选择,在推理性能、编码能力和部署效率之间取得了令人印象深刻的平衡。它非常适合实验、无缝集成到智能体系统以及资源敏感的生产工作负载。