OpenAI发布开源gpt-oss模型,赋能本地AI部署

Infoq

OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b,这是自 GPT-2 以来其首批真正意义上的开源(open-weight)语言模型,标志着在本地硬件上实现高性能 AI 推理和工具使用迈出了重要一步。这些模型在宽松的 Apache 2.0 许可下发布,允许广泛采用和修改。

两者中更强大的 gpt-oss-120b 采用了专家混合(MoE)架构,每个 token 激活 51 亿参数。这种设计使其在关键推理基准测试中能够媲美甚至超越 OpenAI 专有的 o4-mini 模型,同时还能在一块 80 GB GPU 上高效运行。其较小的版本 gpt-oss-20b 则旨在提高可访问性,激活其 210 亿参数中的 36 亿。至关重要的是,gpt-oss-20b 可以在仅有 16 GB 内存的消费级硬件上运行,这使其成为设备端推理或无需云基础设施的快速开发周期的理想选择。

这两种模型都能够处理高级 AI 应用,支持链式思考推理、集成工具使用和结构化输出生成等复杂技术。开发者可以灵活调整模型的推理投入,从而在特定任务的处理速度和准确性之间实现平衡。

这些 gpt-oss 模型是采用 OpenAI 内部 o 系列模型的训练方法开发的,整合了旋转位置嵌入和分组多查询注意力等特性。它们还拥有高达 128k token 的惊人上下文长度。在包括编程(Codeforces)、健康(HealthBench)、数学和代理基准测试(MMLU、TauBench)在内的多个领域进行的广泛评估表明,即使与 o4-mini 和 GPT-4o 等闭源模型相比,它们也展现出强大的能力。

为了促进对模型行为和潜在风险的研究,OpenAI 发布这些模型时并未直接监督它们的链式思考推理过程。这种方法允许研究人员公开检查模型的内部推理轨迹,以发现偏见或滥用等问题。为主动解决安全问题,OpenAI 使用对抗性数据进行了严格的最坏情况微调,特别是在生物学和网络安全等敏感领域。该公司报告称,即使在这些严苛条件下,模型也未根据 OpenAI 的准备框架达到高风险能力水平。独立外部专家评审员的发现也为最终发布提供了信息。为进一步强调其对安全的承诺,OpenAI 启动了一项红队挑战,设立了高达 50 万美元的奖金池,邀请社区在真实世界场景中严格测试这些模型。

gpt-oss 模型现已在 Hugging Face 和各种其他部署服务等平台上广泛提供。特别是 gpt-oss-20b 模型,以其本地执行所需的最低硬件要求而脱颖而出。用户在初次下载后,无需互联网连接即可在计算机上运行它,最低要求 16 GB RAM(无论是显存还是系统内存)。例如,一台配备 16 GB RAM 的 MacBook Air 可以以每秒几十个 token 的速度运行该模型,而现代 GPU 可以达到每秒数百个 token。微软也通过 ONNX Runtime 为 Windows 提供 GPU 优化版本的 20B 模型,并通过 Foundry Local 和适用于 VS Code 的 AI 工具包使其可用,从而提高了其可访问性。