OpenAI开放权重GPT-OSS模型:战略性回归与AI普及新篇章
即便OpenAI雄心勃勃的GPT-5发布热度尚未完全消退,本周该公司另一项重大声明——发布两款全新的开放权重模型gpt-oss-120b和gpt-oss-20b——正引发广泛关注。此举标志着OpenAI的显著转变,过去六年来,该公司主要专注于开发专有模型。Databricks、微软和AWS等合作伙伴正热烈欢迎OpenAI回归AI生态系统更为开放的姿态。
这些新语言模型,gpt-oss-120b和gpt-oss-20b,分别拥有约1200亿和200亿个参数。尽管这些数字庞大,但与目前市场主导的“万亿参数”模型相比,它们仍相对紧凑。两款gpt-oss模型均设计为推理引擎,利用“专家混合”(MoE)架构,使其能更高效地处理信息。值得注意的是,更大的gpt-oss-120b可以在标准数据中心级GPU上高效运行,而其较小的兄弟gpt-oss-20b则能在仅有16GB内存的典型台式电脑上运行,使其适用于边缘设备。
OpenAI声称,gpt-oss-120b模型在核心推理基准测试上实现了与其既有o4-mini模型的“近乎同等”的性能,并且能在单个80GB GPU上高效运行。该公司进一步强调gpt-oss-20b在常见基准测试中与OpenAI的o3-mini表现相当,凸显其适用于设备端用例、本地推理或无需昂贵基础设施的快速开发。作为OpenAI的发布合作伙伴,Cloudflare指出这些模型针对FP4量化进行了原生优化,这项技术相比FP16精度下的1200亿参数模型,显著降低了其GPU内存占用。这与MoE架构相结合,使得新模型比同等规模的传统密集型模型运行更快、效率更高。
gpt-oss模型提供128K的上下文窗口,并提供低、中、高可调的推理级别。它们目前仅支持英语,并且专为基于文本的应用设计,这使其区别于Meta Llama等多模态开放权重模型。然而,它们以Apache 2.0许可证作为开放权重模型发布,意味着客户获得了前所未有的灵活性:他们可以在任何选择的地点部署和运行这些模型,并且关键的是,可以用自己的数据对其进行微调,以实现针对特定需求的卓越性能。
Databricks作为关键发布合作伙伴,已在其AI市场中提供了gpt-oss-120b和gpt-oss-20b。Databricks神经网络首席技术官韩林(Hanlin Tang)对OpenAI的这一转变表示了热情,他表示:“长期以来,我们一直拥抱开源和开放模型,从Meta的Llama模型到我们过去自己的一些模型,很高兴看到OpenAI也加入了开放模型的世界。”韩林强调了全面访问模型权重所带来的增强透明度和深层定制潜力。尽管早期测试仍在进行中,但韩林指出初步迹象“非常有希望”,MoE架构使其特别适合低延迟应用,如AI代理、聊天机器人和副驾驶——这些目前是最受欢迎的AI应用类型。尽管仅限于文本,韩林预计它们在文本摘要等批处理工作负载中也将表现出色。
微软也对OpenAI拥抱开放权重模型表示了强力支持,宣称“开放模型已从边缘走向主流”。该公司强调了对开发者的优势,解释说开放权重使团队能够使用LoRA、QLoRA和PEFT等高效方法快速微调模型,集成专有数据,并在数小时而非数周内部署新的检查点。微软进一步强调了对gpt-oss模型进行蒸馏、量化或修剪上下文长度的能力,应用“结构化稀疏性”以满足边缘GPU或高端笔记本电脑严格的内存要求,并注入“领域适配器”以便于安全审计。本质上,微软将这些开放模型不仅仅视为功能等效的替代品,而是“可编程基底”——可以深度定制的基础工具。
AWS也支持OpenAI的这一倡议,AWS产品总监Atul Deo表示:“开放权重模型是生成式AI技术未来发展中的一个重要创新领域,这就是为什么我们投入资源,将AWS打造成运行它们的最佳场所——包括今天OpenAI发布的新模型。”
AI采用者中更广泛的趋势是采取战略性的混合搭配方法。虽然像GPT-5这样的大型专有语言模型因其广泛的训练数据而在泛化能力上表现出色,但它们通常成本更高,并且缺乏深度定制的灵活性。相反,较小的开放权重模型可能泛化能力不那么强,但其开放性允许微调、部署灵活性(提供隐私优势),并且通常运营成本更低。正如韩林所解释的,选择归结为为客户特定用例选择合适的AI模型。企业正越来越多地做出多样化的选择,平衡对专有模型“超高质量”的追求与开放权重替代方案所提供的成本效益和深度定制。