OpenAI推出GPT-OSS:GPT-2后首批开放权重大模型重磅登场

2025-08-05T21:52:27.000ZTheregister

OpenAI推出了GPT-OSS,这是其自GPT-2发布以来的首批开放权重语言模型,标志着其在模型可访问性策略上的重大转变。这些新模型在高度宽松的Apache 2.0许可下可用,为开发者提供了广泛的商业和非商业应用自由,且无限制性条款。

GPT-OSS系列首次亮相两款不同模型:一个1200亿参数的推理模型和一个更紧凑的200亿参数版本。OpenAI表示,较大模型提供的性能可与其专有的o4-mini模型媲美,而较小版本则取得了与o3-mini相似的结果。

这些模型主要通过大量英文文本语料库进行训练,特别侧重于STEM科目、编码和通用知识。与OpenAI的一些更大、更高级的模型(如GPT-4o)不同,GPT-OSS不包含视觉能力。在后训练阶段,OpenAI应用了强化学习技术,类似于用于其o4-mini模型的技术,以赋予GPT-OSS链式思考推理能力。用户可以通过系统提示调整模型的推理程度——低、中或高。

两款GPT-OSS模型都利用了专家混合(MoE)架构,这是一种提高效率的设计选择。在1200亿参数模型中,有128个专业子网络或“专家”可用,其中四个(总计51亿参数)积极生成每个输出token。200亿参数版本是一个精简设计,包含32个专家和36亿个活跃参数。这种MoE结构允许比同等大小的密集模型更快地生成token,前提是硬件能够支持。

关于硬件要求,OpenAI已对这些模型进行了优化,以实现高效运行。1200亿参数模型可以在单个80GB H100 GPU上运行,而200亿参数版本设计为仅需16GB VRAM即可运行。对GPT-OSS-20B模型在RTX 6000 Ada GPU上进行的初步测试表明,在批处理大小为1时,token生成速率超过每秒125个token。

这些模型具有128,000个token的原生上下文窗口。虽然在一年前具有竞争力,但现在这一容量已被一些竞争对手超越,例如阿里巴巴的Qwen3系列提供了256,000个token的上下文窗口,以及Meta的Llama 4支持高达1000万个token。

GPT-OSS的发布经历了多次延迟,OpenAI首席执行官Sam Altman将其归因于广泛的安全评估。在最近的一篇博客文章中,OpenAI详细介绍了实施的安全措施,包括过滤掉与化学、生物、放射或核(CBRN)研究和开发相关的有害数据。这些模型还被设计为能够抵抗不安全提示和提示注入尝试。OpenAI承认对手出于恶意目的微调开放权重模型的风险,但对其安全防护措施表示有信心。为进一步测试这些措施,该公司启动了一项红队挑战,向任何能够发现新颖安全漏洞的人提供50万美元奖金。

GPT-OSS目前可在包括Hugging Face在内的各种模型仓库中获取,并支持广泛的推理框架,如Hugging Face Transformers、PyTorch、Triton、vLLM、Ollama和LM Studio。

展望未来,Sam Altman暗示将有进一步的发展,在X上表示本周晚些时候预计会有“重大升级”,引发了关于潜在GPT-5发布的猜测。

OpenAI推出GPT-OSS:GPT-2后首批开放权重大模型重磅登场 - OmegaNext AI 新闻