OpenAI重磅发布开源AI模型,战略重心大转移
OpenAI已推出两款全新的“开放权重”AI推理模型,并在开发者平台Hugging Face上免费提供下载。该公司表示,这些模型在与同类开放模型进行多项基准评估时,展现出“最先进”的性能。
此次发布包含两种不同规模的模型:更强大的gpt-oss-120b,设计用于单个英伟达GPU上运行;以及更轻量的gpt-oss-20b,可在配备16GB内存的消费级笔记本电脑上运行。这标志着自五年多前首次亮相的GPT-2以来,OpenAI首次公开发布“开放”语言模型。
OpenAI指出,这些新的开放模型能够向公司托管在云端的更强大AI模型发送复杂查询。这种混合方法意味着,如果一个开放模型无法执行特定任务(例如处理图像),开发者可以将其连接到OpenAI功能更强大、闭源的模型。
尽管OpenAI在早期曾拥抱开源,但公司主要采取了专有、闭源的开发策略。这种方法通过向企业和开发者销售其AI模型的API接口访问,成功建立了庞大的业务。然而,CEO萨姆·奥特曼在1月份曾表示,他认为OpenAI在技术开源方面一直“站在了历史的错误一边”。
该公司目前正面临来自中国AI实验室日益激烈的竞争,包括DeepSeek、阿里巴巴的通义千问(Qwen)和月之暗面(Moonshot AI),这些实验室已开发出世界上最强大且被广泛采用的开放模型。此次战略转变发生之际,Meta的Llama AI模型(一度在开放AI领域占据主导地位)据报道在过去一年中已落后。此外,特朗普政府在7月敦促美国AI开发者开源更多技术,以促进符合美国价值观的全球AI普及。
通过引入gpt-oss,OpenAI旨在获得开发者和特朗普政府的支持,两者都注意到了中国AI实验室在开源领域日益突出的地位。萨姆·奥特曼表示:“OpenAI的使命是确保通用人工智能(AGI)造福全人类。为此,我们很高兴看到世界正在基于美国创建的、以民主价值观为基础的、免费向所有人开放并广泛受益的开放AI堆栈上进行构建。”
模型性能与幻觉问题
OpenAI试图将其新的开放模型定位为其他开放权重AI模型的领导者,并声称在此方面取得了成功。
在Codeforces(一个利用工具的竞技编程测试)上,gpt-oss-120b取得了2622分,而gpt-oss-20b取得了2516分。两款模型均优于DeepSeek的R1,但落后于OpenAI的o3和o4-mini模型。
同样,在“人类终极考试”(Humanity’s Last Exam,一项跨多个学科的众包难题测试,也使用工具)中,gpt-oss-120b得分19%,gpt-oss-20b得分17.3%。这些结果表明其性能不及o3,但优于DeepSeek和通义千问的领先开放模型。
值得注意的是,与OpenAI最新的专有AI推理模型o3和o4-mini相比,OpenAI的新开放模型表现出显著更高的“幻觉”率——即生成不正确或无意义信息。OpenAI将此归因于较小的模型比大型前沿模型拥有更少的“世界知识”,从而导致幻觉增加。在PersonQA(OpenAI衡量人物知识准确性的内部基准)上,gpt-oss-120b在49%的问题中出现幻觉,gpt-oss-20b在53%的问题中出现幻觉。这一比率是OpenAI o1模型(16%)的三倍多,也高于其o4-mini模型(36%)。
训练与许可
OpenAI表示,其开放模型是采用与其专有模型相似的流程进行训练的。每个开放模型都采用专家混合(MoE)架构,以在任何给定查询中高效激活较少参数。例如,gpt-oss-120b拥有1170亿总参数,但每个token仅激活51亿参数。
这些模型在训练后阶段还经历了高计算量强化学习(RL)。这个过程在模拟环境中使用大型英伟达GPU集群,教会AI模型区分正确和错误的响应。与OpenAI的o系列模型类似,新的开放模型采用“思维链”(chain-of-thought)过程,投入额外的时间和计算资源来形成答案。这种后训练使得开放模型在驱动AI代理方面表现出色,允许它们调用网页搜索或Python代码执行等工具。然而,OpenAI强调这些开放模型仅支持文本,无法像公司其他一些模型那样处理或生成图像和音频。
OpenAI正在根据Apache 2.0许可证发布gpt-oss-120b和gpt-oss-20b,该许可证被广泛认为是限制最少的许可证之一。此许可证允许企业将OpenAI的开放模型商业化,而无需向公司支付费用或获得许可。然而,与AI2等完全开源AI实验室提供的产品不同,OpenAI不会发布用于创建这些模型的训练数据。这一决定与针对包括OpenAI在内的多家AI模型提供商的几起活跃诉讼背景相符,这些诉讼指控其不当使用了受版权保护的作品进行训练。
安全考量
据报道,OpenAI的开放模型发布在近几个月内多次推迟,部分原因是出于安全考虑。除了其标准安全协议外,OpenAI还调查了恶意行为者是否可以微调gpt-oss模型以促进网络攻击或制造生物或化学武器。
经过OpenAI和第三方评估员的评估后,该公司得出结论,gpt-oss可能会轻微增加生物能力。然而,没有证据表明这些开放模型即使在微调后也能在这些领域达到“高能力”的危险阈值。
尽管OpenAI的新模型似乎在开源产品中处于领先地位,但开发者们也期待DeepSeek的下一个AI推理模型DeepSeek R2以及Meta超级智能实验室的新开放模型的发布。