研究者がOpenAIのgpt-oss-20bを未加工・無検閲のベースモデルに変革
OpenAIが強力な新しい大規模言語モデルgpt-ossファミリーをリリースしてから2週間も経たないうちに、開発者たちはすでにそれらを再構築しています。これは2019年以来、同社初のオープンウェイトモデルです。注目すべき例の一つは、コーネル工科大学の博士課程の学生であり、Metaの研究者であるジャック・モリスによるもので、彼は最近gpt-oss-20b-baseを発表しました。このOpenAIの小型gpt-oss-20Bモデルの再構築版は、組み込みの推論機能を排除し、より高速で、自由で、制約の少ない応答を提供する、未加工の事前学習済みの状態に戻されています。このモデルは現在、寛容なMITライセンスの下でHugging Faceで利用可能であり、さらなる研究と商業的応用が可能です。
モリスのイノベーションを理解するには、OpenAIのリリースと、人工知能研究者が「ベースモデル」と呼ぶものとを区別することが重要です。OpenAI、Anthropic、Google、そしてMetaやDeepSeekのようなオープンソースのプレイヤーを含む主要なAIラボが提供するほとんどの大規模言語モデルは、「後学習済み」です。これは、望ましい振る舞いの厳選された例にさらされる追加のフェーズを経ていることを意味します。指示調整済みモデルの場合、これは多数の指示と理想的な応答のペアの例を提供することを含み、AIが自然言語の要求に対してより役立つ、丁寧な、または安全な方法で応答するように教えています。
8月5日にリリースされたOpenAIのgpt-ossモデルは、「推論最適化」されていました。これらは単に次の単語を予測するだけでなく、安全かつ一貫した方法で指示に従うようにトレーニングおよびファインチューニングされており、最終的な答えを生成する前に、構造化された「思考の連鎖」推論を用いて問題を解決することがよくありました。OpenAIが約1年前にo1モデルで初めて導入したこのアプローチは、業界全体で広く採用されています。これにより、モデルは複数のステップでより長く「考え」、自身の作業を確認することが強制され、コーディング、数学的問題の解決、説明付きの事実質問への回答などのタスクにより適しています。しかし、これはまた、その応答がフィルタリングされ、安全でないまたは望ましくないと考えられるコンテンツから逸らされることを意味します。
対照的に、ベースモデルは、そのような推論固有のアラインメントが適用される前の大規模言語モデルの未加工の事前学習済みバージョンです。ベースモデルは、組み込みのガードレール、スタイルの好み、または拒否動作なしに、先行するテキストに基づいて最も可能性の高い次の単語を予測しようとします。これらは、より多様で制約の少ない出力を生成できるため、一部の研究者から高く評価されています。フィルタリングされていない動作を研究することで、モデルがトレーニングデータから派生した知識やパターンをどのように保存しているかについて、より深い洞察を得ることもできます。
モリスの目的は、OpenAIのアラインメントプロセスを「逆転」させ、より小さなgpt-oss-20Bを元の事前学習済み形式により近い状態に戻すことでした。彼がプロジェクトを発表したXのスレッドで説明したように、「私たちは基本的にLLMトレーニングのアラインメント部分を逆転させたので、再び自然に見えるテキストを生成するものができました。もはやCoTには関与しません。それは、汎用テキストで次のトークンを予測するだけのモデルに戻りました。」
モリスは、初期の実験で効果がないと判断した巧妙なプロンプトでモデルの安全フィルターを迂回しようとする代わりに、OpenAIの元共同創設者であり、Thinking Machinesの現在のチーフサイエンティストであるジョン・シュルマンとの会話の後、異なる戦略を追求しました。核心的なアイデアは、アラインメントの反転をマイナーな最適化問題として扱うことでした。つまり、モデルの事前学習済み知識のほとんどが内部設定(重み)内に残っている場合、それをベースモデルの動作に戻すためには、小さな低ランクの更新だけで済む可能性があるということです。
モリスはこれを、モデルの3つの特定の層(位置7、15、23のMLP層)に、ランク16の低ランクアダプター(LoRA)更新を適用することで実装しました。これには、モデルの合計210億パラメータのわずか0.3%に相当する約6000万パラメータのトレーニングが含まれていました。彼はFineWebデータセットから約20,000のドキュメントを使用し、モデルが新しい情報を学習するのではなく、その広範なフリーテキスト生成能力を再活性化することを確実にするために、元の事前学習にできるだけ近い形式を維持しました。トレーニングプロセスは、8台のNVIDIA H200 GPUで4日間かかり、学習率は2e-6、バッチサイズは16、最大シーケンス長は8,192トークンでした。その後、モリスはLoRAの重みをモデルにマージし、ユーザーがスタンドアロンの完全にファインチューニングされたアーティファクトとして実行できるようにしました。彼はまた、gpt-ossのようなMixture-of-Experts(MoE)アーキテクチャのファインチューニングのための現在のオープンツールが持つ制限を克服し、進行状況を頻繁にチェックポイントし、GPUメモリの過負荷のリスクがあるデータバッチをスキップするための独自のシステムを開発しました。
コミュニティからの質問に対するモリスの明確化に注意することが重要です。彼は、人工ニューロンの動作を制御するベースモデルの元の重みを回復したわけではありません。代わりに、彼の研究は「ベースモデルの分布をいくつかの誤差とともに回復した」と述べています。これは、モデルが出力を生成するために使用する確率パターンを意味し、そのパターンを生成する基盤となる重みが異なる場合でも同様です。
その結果、gpt-oss-20b-baseは著しく自由な出力を示します。もはや推論を段階的に説明することがデフォルトではなくなり、OpenAIのアラインメントされたモデルが通常拒否するような、武器の製造方法を詳細に説明したり、罵り言葉を列挙したり、違法行為を計画したりする指示を含む、より広範な応答を生成するようになります。簡単なテストでは、モリスは著作権で保護された作品から逐語的な文章を再現できることも発見しました。彼が試した6つの本の抜粋のうち3つを再現できたことから、一部の記憶された素材がアクセス可能であることが示されています。それにもかかわらず、アラインメントの痕跡は残っています。アシスタント形式でプロンプトを与えられた場合、モデルは時折丁寧なチャットボットのように振る舞うことがあります。元のgpt-ossチャットテンプレートを通して実行した場合、品質は多少低下するものの、推論タスクを実行することもできます。フリーテキストモードで最適な結果を得るには、モリスはプロンプトの前にモデルの特別なシーケンス開始トークンを付け、チャットテンプレートを完全に避けることを推奨しています。
gpt-ossファミリーは、gpt-oss-120Bとgpt-oss-20Bモデルで構成され、大きな注目を集めてデビューしました。これらのテキストのみの多言語モデルは、Mixture-of-Experts Transformerアーキテクチャで構築されており、寛容なApache 2.0ライセンスの下でリリースされ、無制限のローカル使用、ファインチューニング、商業展開が可能です。OpenAIの性能ベンチマークは、より大きな120Bモデルが推論およびツール使用タスクにおいて独自のo4-miniと同等またはそれを上回る性能を示し、より小さな20Bモデルはo3-miniと競争力があることを示しました。これはOpenAIにとって6年ぶりのオープンウェイトリリースであり、中国のDeepSeek R1やQwen 3を含む他のオープンウェイトプロバイダーからの競争圧力への対応として広く解釈されました。同社はgpt-ossを、競合するオープンソースモデルに移行した開発者を再エンゲージする手段として、またオープンウェイトシステムにおける安全研究のプラットフォームとして位置づけました。
OpenAIのgpt-ossモデルに対する開発者の反応は様々でした。支持者は、寛容なライセンス、効率性、そしてSTEMベンチマークにおける強力な性能を賞賛し、Hugging FaceのCEOであるクレム・デラングはこれを「オープンエコシステムへの有意義な追加」と呼びました。しかし、批評家は、これらのモデルが合成データで大量にトレーニングされているように見え、数学やコーディングには優れているものの、クリエイティブライティング、一般的な世界知識、多言語推論の能力が低いと主張しました。一部の初期テスターは、残存する安全フィルターや潜在的な地政学的偏見についても懸念を表明しました。
このような背景の中で、モリスのgpt-oss-20b-baseは、オープンウェイトモデルがリリース後数日以内に現場でどのように適応され、再利用されるかを示す具体的な例として際立っています。OpenAIのgpt-ossが受けた意見の分かれる反応とは対照的に、モリスの仕事に対する反応は圧倒的に好意的で、Xのあるコンピューター科学者は「ここ数ヶ月でTwitter [X]で見た中で最もクールなもの」と評しました。このアプローチは、OpenAIが慎重に組み込んだ振る舞いの多くを取り除き、モデルを未加工の事前学習済みシステムに近い状態に戻します。記憶、バイアス、またはアラインメントの影響を研究する研究者にとっては非常に価値のあるものですが、本質的に高い安全リスクも伴います。モリスは、Qwenなどが提供する他の指示モデルで自身の抽出方法を比較することにより、推論モデルを事前学習済みの非推論ベースフォームに復元する研究を続ける予定です。