OpenAI发布全新开源权重gpt-oss语言模型,AI普惠迈出重要一步
OpenAI宣布发布gpt-oss-120b和gpt-oss-20b,这两款全新的最先进开源权重语言模型旨在以低成本提供强大的实际性能。这些模型在宽松的Apache 2.0许可证下可用,此举标志着OpenAI自2019年GPT-2以来首次发布开源权重大型语言模型,预示着人工智能生态系统向更广泛的可访问性迈出了重要一步。
gpt-oss模型旨在在推理任务中表现出色,并展示强大的工具使用能力,其性能优于同等规模的开源模型。较大的gpt-oss-120b模型拥有1168亿总参数,每个token有51亿活跃参数,在核心推理基准测试中几乎与OpenAI的专有o4-mini模型达到同等水平。值得注意的是,这款强大的模型经过优化,可以在单个80 GB GPU上高效运行。
为了实现更便捷的部署,gpt-oss-20b模型拥有209亿总参数和36亿活跃参数,其性能与OpenAI的o3-mini模型相当。至关重要的是,这款较小的模型可以在内存低至16 GB的消费级硬件上运行,使其成为设备端使用、本地推理和无需昂贵基础设施即可快速开发的理想选择。这两款模型都利用4位量化方案(MXFP4)处理其专家混合(MoE)权重,这显著减少了内存占用并实现了高效推理。
gpt-oss模型是纯文本的自回归专家混合(MoE)Transformer模型,建立在GPT-2和GPT-3的基础架构之上。它们旨在无缝集成到代理工作流中,具有卓越的指令遵循能力、高级工具使用(如网页搜索和Python代码执行)以及可定制的推理能力,包括根据不同复杂性或延迟要求调整推理工作量的能力。开发者还可以受益于完整的思维链(CoT)和结构化输出,从而对模型的处理过程拥有更大的控制和透明度。除了通用推理,这些模型在竞赛数学、编码和健康相关查询等领域表现出特别的优势,甚至在HealthBench等基准测试中超越了一些专有模型。
此次发布是不断发展的人工智能领域的一个显著进展,其中开源权重模型正日益民主化地普及强大的AI技术。通过在Apache 2.0许可证下提供这些模型,OpenAI使开发者和组织能够在自己的基础设施上下载、微调和部署AI,减少对特定供应商API的依赖,并促进更大的控制和定制化。这一转变符合更广泛的行业趋势,即开源权重系统正在缩小与封闭模型的性能差距,降低进入门槛,并通过社区协作加速创新。gpt-oss模型可在Hugging Face上下载,也可通过AWS上的Amazon Bedrock和Amazon SageMaker AI以及Ollama访问。
OpenAI强调,安全性仍然是其发布模型方法的基础方面,特别是对于一旦公开就可能被滥用的开源模型。gpt-oss模型经过了全面的安全训练和评估,包括测试了对抗性微调版本。虽然这些模型默认设计为遵守OpenAI的安全政策,但该公司指出,利用这些模型的开发者和企业需要实施额外的保障措施,以复制OpenAI API服务模型中通常内置的系统级保护。这反映了随着AI能力更广泛地分发,道德部署的共同责任。