OpenAI重返开源:发布gpt-oss-120b与20b大模型
OpenAI发布了两款全新大型语言模型(LLM):gpt-oss-120b和gpt-oss-20b,这标志着其显著重返开源领域。这些模型是自开创性的GPT-2以来,OpenAI首次开放许可的LLM,预示着其对社区访问和协作开发的重新承诺。gpt-oss模型在人工智能社区的极大期待中发布,旨在为推理能力和集成工具使用设定新的基准,所有这些都在宽松的Apache 2.0许可下进行。这一许可选择至关重要,因为它允许开发者和组织免费使用和调整这些模型,用于研究和商业应用,而无需支付许可费用或受制于Copyleft限制。
gpt-oss模型以其多项创新功能脱颖而出。一个独特的方面是它们可配置的推理级别,允许用户指定模型应进行低、中或高深度的思考过程,从而平衡速度与分析严谨性。与许多专有模型不同,gpt-oss还提供完整的思维链访问,对其内部推理步骤提供透明的洞察。这使用户能够检查或筛选模型的分析路径,有助于调试并建立对其输出的信任。此外,这些模型内置了原生代理能力,这意味着它们天生设计用于遵循指令,并支持在其推理过程中使用外部工具。
gpt-oss模型的双核都是基于Transformer的网络,采用专家混合(MoE)设计。这种架构通过为每个输入令牌仅激活全部参数(或“专家”)的子集,从而实现计算效率。较大的gpt-oss-120b拥有36层,总参数达1170亿,每个令牌约有51亿个活跃参数,从128个专家子网络中提取。更紧凑的gpt-oss-20b拥有24层,总参数为210亿,利用32个专家实现每个令牌约36亿个活跃参数。两种模型都包含了高级功能,如旋转位置嵌入(RoPE),以处理长达128,000个令牌的广泛上下文窗口,以及分组多查询注意力,以优化内存使用同时保持快速推理。它们可访问性的一个关键推动因素是默认的4位MXFP4量化,这使得120B模型可以适应单个80GB GPU,而20B模型可以适应更小的16GB GPU内存,同时将精度损失降至最低。
两种模型对硬件的要求差异显著。gpt-oss-120b需要高端GPU,通常需要80-100GB的显存,适用于单个A100/H100级GPU或多GPU设置。相比之下,gpt-oss-20b则轻巧得多,使用大约16GB显存即可高效运行,使其在笔记本电脑或Apple Silicon设备上也能运行。两种模型都支持其令人印象深刻的128,000个令牌上下文窗口,尽管处理如此长的输入仍然计算密集。这些模型可以通过流行的框架部署,如Hugging Face Transformers、用于高吞吐量服务的vLLM、用于本地聊天服务器的Ollama以及用于CPU或ARM环境的Llama.cpp,确保开发者广泛的可访问性。
在实际测试中,gpt-oss-120b在复杂的推理任务中始终表现出卓越的能力,例如符号类比,它能有条不紊地推导出正确答案。gpt-oss-20b虽然高效,但在相同水平的复杂逻辑或输出长度限制方面有时会遇到困难,这突显了大型模型在要求苛刻的场景中的优势。例如,在需要特定时间复杂度的C++代码生成任务中,120B模型提供了健壮且高效的解决方案,而20B模型的输出则不那么完整或难以满足给定约束。
在标准基准测试中,两种模型都表现出色。gpt-oss-120b通常在MMLU和GPQA Diamond等具有挑战性的推理和知识任务上得分高于其20B对应模型,展示了其增强的能力。然而,gpt-oss-20b也表现出强大的性能,尤其是在AIME数学竞赛任务上几乎与120B模型持平,这表明尽管其规模较小,但在特定领域仍具有惊人的实力。120B模型与OpenAI内部的o4-mini模型性能相当,而20B模型在许多基准测试上与o3-mini的质量相符。
选择这两种模型中的哪一个,主要取决于项目需求和可用资源。对于最苛刻的任务,包括复杂代码生成、高级问题解决和深入的领域特定查询,gpt-oss-120b是首选,前提是具备必要的高端GPU基础设施。相反,gpt-oss-20b是一款高效的“主力”,针对需要速度和更低资源消耗的场景进行了优化,例如设备上的应用程序、低延迟聊天机器人或集成网页搜索和Python调用的工具。它是概念验证开发、移动应用程序或硬件受限环境的绝佳选择,通常能为许多实际应用提供足够的质量。
gpt-oss模型解锁了广泛的应用。它们在内容生成和重写方面非常有效,能够解释其思考过程,这可以显著帮助作家和记者。在教育领域,它们可以逐步演示概念,提供反馈,并为辅导工具提供动力。它们强大的代码生成、调试和解释能力使其成为无价的编码助手。对于研究而言,它们可以总结文档、回答领域特定问题和分析数据,其中大型模型特别适合为法律或医学等专业领域进行微调。最后,它们的原生代理能力促进了能够浏览网页、与API交互或运行代码的自主代理的创建,无缝集成到复杂的、基于步骤的工作流中。
总而言之,gpt-oss模型的发布标志着OpenAI和更广泛的AI生态系统的一个关键时刻,它使强大的语言模型变得民主化。虽然gpt-oss-120b在各个方面都明显优于其较小的兄弟模型——提供更清晰的内容、解决更难的问题并在复杂推理方面表现出色——但其资源密集性带来了部署挑战。然而,gpt-oss-20b在质量和效率之间提供了引人注目的平衡,使更先进的AI能够在更适中的硬件上运行。这不仅仅是增量升级;它代表着将最先进的AI能力提供给更广泛社区的重大飞跃,从而促进创新和应用开发。