研究员将OpenAI的gpt-oss-20b改造为原始、未审查的基础模型
在OpenAI发布其强大的新型大型语言模型gpt-oss家族(该公司自2019年以来的首批开放权重模型)不到两周后,开发者们已经开始对其进行重塑。一个引人注目的例子来自康奈尔理工学院的博士生、Meta研究员杰克·莫里斯,他最近公布了gpt-oss-20b-base。这个重新加工过的OpenAI小型gpt-oss-20B模型剥离了其内置的推理能力,使其恢复到原始的预训练状态,从而提供更快、更自由、更少约束的响应。该模型现已在Hugging Face上以宽松的MIT许可证发布,允许进一步研究和商业应用。
要理解莫里斯的创新,区分OpenAI的发布和人工智能研究人员所称的“基础模型”至关重要。包括OpenAI、Anthropic、Google以及Meta和DeepSeek等开源参与者在内的领先AI实验室提供的大多数大型语言模型都是“后训练”的。这意味着它们经过了一个额外的阶段,在此阶段它们被暴露在经过筛选的期望行为示例中。对于指令调优模型,这涉及提供大量指令与理想响应配对的示例,从而教会AI如何更有帮助、更礼貌或更安全地响应自然语言请求。
OpenAI于8月5日发布的gpt-oss模型是“推理优化”的。它们经过训练和微调,不仅是为了预测下一个词,更是为了以安全、一致的方式遵循指令,通常采用结构化的“思维链”推理来解决问题,然后再给出最终答案。这种方法是OpenAI大约一年前首次在其o1模型中引入的,现已在整个行业中广泛采用。它迫使模型在多个步骤中“思考”更长时间并检查自己的工作,使其更适合编码、解决数学问题或回答带解释的事实性问题等任务。然而,这也意味着它们的响应会受到过滤,并避免生成被认为不安全或不受欢迎的内容。
相比之下,基础模型是在应用任何此类推理特定对齐之前的大型语言模型的原始预训练版本。基础模型只是简单地尝试根据前面的文本预测最有可能的下一个词,没有内置的防护措施、风格偏好或拒绝行为。它们受到一些研究人员的高度重视,因为它们可以产生更多样化、更少受限的输出。研究它们的未过滤行为还可以更深入地了解模型如何存储知识以及从训练数据中获得的模式。
莫里斯的目标是“逆转”OpenAI的对齐过程,将较小的gpt-oss-20B恢复到更接近其原始预训练形式的状态。正如他在宣布该项目的X帖子中解释的那样:“我们基本上逆转了LLM训练中的对齐部分,因此我们得到了一个能再次生成自然文本的模型。它不再进行思维链推理。它回到了一个只在通用文本上预测下一个token的模型。”
莫里斯在与OpenAI前联合创始人、Thinking Machines现任首席科学家约翰·舒尔曼交谈后,没有试图通过巧妙的提示来绕过模型的安全过滤器(莫里斯在早期实验中发现这种方法无效),而是采取了不同的策略。核心思想是将对齐逆转视为一个次要的优化问题:如果模型的大部分预训练知识保留在其内部设置(权重)中,那么可能只需要一个小的、低秩的更新就能将其推回到基础模型行为。
莫里斯通过对模型的三个特定层——位置7、15和23的MLP层——应用秩为16的低秩适配器(LoRA)更新来实现这一目标。这涉及训练大约6000万个参数,仅占模型总计210亿个参数的0.3%。他利用了FineWeb数据集中的约20000份文档,保持了与原始预训练尽可能接近的格式,以确保模型不会学习新信息,而是重新激活其广泛的自由文本生成能力。训练过程在八块NVIDIA H200 GPU上耗时四天,学习率为2e-6,批处理大小为16,最大序列长度为8192个token。之后,莫里斯将LoRA权重合并回模型中,允许用户将其作为独立的、完全微调的制品运行。他还克服了当前用于微调gpt-oss等专家混合(MoE)架构的开源工具的限制,开发了自己的系统以频繁检查进度并跳过可能导致GPU内存过载的数据批次。
值得注意的是,莫里斯在回答社区问题时澄清:他没有恢复基础模型的原始权重(控制其人工神经元行为的权重)。相反,他表示他的工作“以一定的误差恢复了基础模型的分布”——这意味着模型用于生成输出的概率模式——即使产生这些模式的底层权重可能不同。
由此产生的gpt-oss-20b-base展现出明显更自由的输出。它不再默认分步解释推理,并将产生更广泛的响应,包括OpenAI对齐模型通常会拒绝的指令,例如详细说明如何制造武器、列出脏话或规划非法活动。在简短测试中,莫里斯还发现它可以逐字复制受版权保护作品的段落,包括他尝试的六个图书节选中的三个,这表明一些记忆材料仍然可访问。尽管如此,仍存在一些对齐的痕迹;如果以助手风格的格式提示,模型偶尔仍可能表现得像一个礼貌的聊天机器人。当通过原始gpt-oss聊天模板运行时,它仍然可以执行推理任务,尽管质量有所下降。为了在自由文本模式下获得最佳结果,莫里斯建议在提示前加上模型的特殊序列开始token,并完全避免使用聊天模板。
gpt-oss家族,包括gpt-oss-120B和gpt-oss-20B模型,首次亮相就受到了广泛关注。这些纯文本、多语言模型采用专家混合Transformer架构构建,并根据宽松的Apache 2.0许可证发布,允许无限制的本地使用、微调和商业部署。OpenAI的性能基准表明,较大的120B模型在推理和工具使用任务上达到或超过了其专有的o4-mini,而较小的20B则与o3-mini具有竞争力。这标志着OpenAI六年来首次发布开放权重模型,此举被广泛解读为回应来自其他开放权重提供商(包括中国的DeepSeek R1和Qwen 3)的竞争压力。该公司将gpt-oss定位为重新吸引已转向竞争对手开源模型的开发者的一种方式,也是对开放权重系统进行安全研究的平台。
开发者对OpenAI的gpt-oss模型的反应褒贬不一。支持者赞扬了其宽松的许可证、效率以及在STEM基准测试中的出色表现,Hugging Face首席执行官Clem Delangue称其为“对开放生态系统有意义的补充”。然而,批评者认为这些模型似乎大量依赖合成数据进行训练,使其在数学和编码方面表现出色,但在创意写作、通用世界知识和多语言推理方面能力较弱。一些早期测试人员还对挥之不去的安全过滤器和潜在的地缘政治偏见表示担忧。
在此背景下,莫里斯的gpt-oss-20b-base作为一个具体例子脱颖而出,展示了开放权重模型在发布几天内如何在实际应用中被改编和重新利用。与OpenAI的gpt-oss所受到的褒贬不一的评价形成鲜明对比的是,社区对莫里斯工作的反应绝大多数是积极的,一位X上的计算机科学家称其为“我在过去几个月里在Twitter [X]上看到的最酷的事情”。这种方法剥离了OpenAI精心构建的大部分行为,使模型更接近原始的预训练系统。虽然对于研究记忆、偏见或对齐影响的研究人员来说,这非常有价值,但它也固有地伴随着更高的安全风险。莫里斯打算通过比较其在其他指令模型(例如Qwen提供的模型)上的提取方法,继续研究将推理模型恢复到其预训练的、非推理基础形式。