OpenAI重磅回归开源,发布gpt-oss-120b与20b两款AI模型
作为ChatGPT背后的AI巨头,OpenAI宣布了一项重大的战略转变,发布了两款开放权重的AI模型:gpt-oss-120b和gpt-oss-20b。这标志着自2019年GPT-2以来,该公司首次公开提供可免费使用的AI模型权重,打破了长达六年专注于专有、闭源模型的时期。
新模型可在Hugging Face等平台下载,并采用宽松的Apache 2.0许可协议,可用于商业和实验目的。此举使开发者和企业能够以前所未有的方式,完全按照自己的意愿运行、调整和部署OpenAI模型,从而消除了对远程云API的依赖,也避免了将敏感内部数据暴露给外部服务。
新模型的详细信息
gpt-oss系列包含两个不同的模型,两者都基于Transformer骨干的混合专家(MoE)架构,通过每token激活更少的参数来提高效率。
gpt-oss-120b: 这个更大的模型共有1170亿个参数,每token激活约51亿个参数。它专为生产、通用和高推理能力的使用场景设计,在核心推理基准测试中,性能接近OpenAI的o4-mini。尽管功能强大,但它经过优化,可在单个80 GB GPU上高效运行,适用于数据中心和高端台式机。
gpt-oss-20b: 这个更小、更高效的模型共有210亿个参数,每token激活约36亿个参数。它针对低延迟和本地或专业使用场景进行了优化,在常见基准测试中,结果与OpenAI o3-mini相似。该模型只需16 GB内存即可在边缘设备上运行,非常适合设备端应用、消费级硬件以及无需昂贵基础设施的快速迭代。
这两个模型都支持高达128,000 token的上下文长度,具备可调节努力程度的思维链(CoT)推理功能,并能出色地遵循指令和使用工具,包括网络搜索和Python代码执行。它们还原生采用MXFP4量化,以实现高效推理。
回归开放根基
OpenAI决定开源这些模型,标志着其近期战略的重大转变。在GPT-2之后,该公司在GPT-3和GPT-4等模型上基本转向了闭源方法,优先考虑专有发布和API访问。这一转变是由多种因素驱动的,包括竞争优势、安全担忧以及利润最大化。
然而,AI开发格局已经演变,Meta(Llama)和Mistral等公司的开源模型获得了显著关注。OpenAI首席执行官Sam Altman此前曾承认,在开源其软件方面,该公司可能“站在了历史的错误一边”。最新发布的这些模型表明,OpenAI正在回应日益增长的竞争压力,并认识到开放生态系统所能带来的好处。
对AI格局的影响
OpenAI此举预计将产生深远影响:
AI的民主化: 通过使强大的模型可免费下载并在本地运行,OpenAI降低了开发者、研究人员、新兴市场和可能缺乏大规模云基础设施资源的小型组织的门槛。
增强控制与隐私: 在本地运行模型可实现对延迟、成本和隐私的完全控制,因为敏感数据可以在内部处理,而无需发送到外部服务器。
促进创新: 在宽松许可下访问开放权重模型,鼓励对特定领域数据进行实验、定制和微调,从而可能加速各种用例的研究和开发。
成本效益: 本地部署消除了与基于云的AI服务相关的持续API成本和订阅费用,为可扩展的AI使用提供了更具成本效益的解决方案。
竞争加剧: OpenAI重新进入开放权重领域,加剧了竞争,推动整个行业走向更透明、更易于访问的AI开发。
OpenAI强调,安全仍然是其方法的基础,这些模型已经过全面的安全训练和评估,包括对抗性测试。虽然模型默认设计为遵循OpenAI的安全策略,但该公司指出,开发者和企业将需要实施额外的安全措施,以复制其专有API模型中内置的系统级保护。
此次发布预示着一个潜在的未来,AI发展将平衡专有进步与对开放工具和标准的承诺,最终旨在加速创新并民主化对先进AI能力的访问。