OpenAI GPT-OSS:新オープンウェイトモデルが競合を凌駕
OpenAIは、寛容なApache 2.0ライセンスの下でリリースされた新しいオープンウェイト推論モデルシリーズ、GPT-OSS-120bとGPT-OSS-20bを発表しました。これらのテキストのみのモデルは、堅牢な指示追従、洗練されたツール使用、強力な推論能力のために設計されており、高度なエージェントワークフローへの統合に最適な候補として位置づけられています。このリリースは、より広範なAIコミュニティ内でのイノベーションと協調的な安全性育成に対するOpenAIの継続的な献身を強調しています。
開発者や研究者にとって重要な疑問は、これらの新しいモデルが、急速に進化するオープンおよびセミオープンウェイトのエコシステムにおいて、他の主要な競合モデルとどのように比較されるかです。明確性を提供するために、GPT-OSSとGLM-4.5、Qwen3-Thinking、DeepSeek-R1、Kimi K2などのモデルとの詳細な比較は、それぞれの強みとトレードオフに関する貴重な洞察を提供します。
GPT-OSSモデルは、GPT-2およびGPT-3の基本的なアーキテクチャに基づいて構築されており、特にMixture-of-Experts(MoE)設計が組み込まれています。このアーキテクチャの選択は、トレーニングと推論の両方における効率にとって極めて重要であり、トークンごとにパラメータのサブセットのみをアクティブにするためです。これにより、モデルは非常に大規模なシステムのスケールを達成しながら、計算コストを綿密に制御できます。このファミリーには2つのモデルが含まれます。GPT-OSS-120bは、合計1168億のパラメータを持ち、36層でトークンあたり約51億のパラメータがアクティブになります。GPT-OSS-20bは、合計209億のパラメータを持ち、24層でトークンあたり36億のパラメータがアクティブになります。両モデルは、2880の残差ストリーム次元、64のクエリヘッドと8のキーバリューヘッドを持つグループ化クエリアテンション、および拡張されたコンテキスト推論のためのロータリー位置埋め込みなど、いくつかの高度なアーキテクチャ要素を共有しています。また、YaRNを活用して131,072トークンの拡張コンテキスト長を誇ります。
実用的な展開を確実にするため、OpenAIはMoEウェイトにMXFP4量子化を適用しました。この革新的な技術により、1200億パラメータのモデルは単一の80GB GPUで効率的に動作でき、200億パラメータの兄弟モデルはわずか16GBのメモリを持つハードウェアでも実行できるため、アクセシビリティが大幅に拡大されます。もう1つの注目すべき機能は「可変推論努力」であり、開発者はシステムプロンプトを介して「低」、「中」、「高」の推論レベルを指定できます。これにより、思考の連鎖(CoT)の長さが動的に調整され、精度、レイテンシ、計算コストのバランスを取る柔軟性が提供されます。さらに、これらのモデルは、リアルタイムウェブ検索用のブラウジングツール、Jupyterのような環境でのステートフルコード実行用のPythonツール、およびカスタム開発者関数のサポートを含む、エージェントワークフローの組み込みサポートでトレーニングされており、複雑な複合的な推論とユーザーインタラクションを促進します。
オープンモデルのエコシステムは、それぞれ異なる強みを持つ手ごわい競合他社で豊富です。GPT-OSSをさまざまなベンチマーク(推論、コーディング、エージェントワークフロー)で比較することで、その立ち位置をより明確に理解できます。
広範な知識と推論タスクにおいて、GPT-OSSはそのサイズに比べて最高のスコアの一部を示しています。MMLU-Proでは、GPT-OSS-120bが印象的な90.0%を達成し、GLM-4.5(84.6%)、Qwen3-Thinking(84.4%)、DeepSeek-R1(85.0%)、Kimi K2(81.1%)を上回っています。競技スタイルの数学タスクでは、GPT-OSSは真に輝き、AIME 2024で96.6%、ツールアシスト付きのAIME 2025ではさらに高い97.9%に達し、他のすべての比較モデルを凌駕しています。GPQA博士レベル科学ベンチマークでは、GPT-OSS-120bはツールを使用して80.9%のスコアを獲得し、GLM-4.5(79.1%)やQwen3-Thinking(81.1%)に匹敵し、DeepSeek-R1(81.0%)にはわずかに及びません。これらの数値は、GPT-OSS-120bの効率的なMoE設計を考えると特に重要です。この設計では、トークンあたり51億のパラメータしかアクティブになりません。対照的に、GLM-4.5とQwen3-Thinkingはかなり大規模な密集モデルであり、これが彼らの強力なツール使用とコーディング結果を部分的に説明しています。DeepSeek-R1も推論のために高いパラメータ数とより深いトークン使用に傾倒する傾向があり、Kimi K2はより小さく、より専門的な指示調整モデルです。この効率性により、GPT-OSSはより軽いアクティブパラメータフットプリントでフロンティアレベルの推論を提供し、深い推論タスクにとって費用対効果の高い選択肢となります。
コーディングとソフトウェアエンジニアリングに関しては、現代のAIベンチマークは、大規模なコードベースを理解し、変更を実装し、多段階の推論を実行するモデルの能力を評価します。SWE-bench Verifiedでは、GPT-OSS-120bは62.4%のスコアを獲得し、GLM-4.5(64.2%)とDeepSeek-R1(エージェントモードで約65.8%)に僅差で続いています。Terminal-Benchでは、GLM-4.5が37.5%でリードし、Kimi K2が約30%で続きます。GLM-4.5は、直接対決のエージェントコーディングタスクでも強力なパフォーマンスを示し、Kimi K2に対して50%以上、Qwen3に対して80%以上の勝率を達成し、ツールベースのコーディングワークフローで高い成功率を維持しています。ここでもモデルサイズが役割を果たします。GLM-4.5はGPT-OSS-120bやKimi K2よりもはるかに大規模な密集モデルであり、これがエージェントコーディングにおいて優位性を与えています。しかし、単一の80GB GPUで実行できるモデルで堅牢なコード編集機能を求める開発者にとって、GPT-OSSは魅力的なバランスを提供します。
エージェント機能(モデルが自律的にツールを呼び出し、関数を実行し、多段階タスクを解決する能力)は、ますます重要になっています。TAU-bench Retailでは、GPT-OSS-120bは67.8%のスコアを獲得しました。これはGLM-4.5の79.7%およびKimi K2の70.6%と比較されます。関数呼び出しベンチマークであるBFCL-v3では、GLM-4.5が77.8%でリードし、Qwen3-Thinkingが71.9%で続き、GPT-OSSは約67〜68%のスコアです。これらの結果は一般的なトレードオフを浮き彫りにしています。GLM-4.5は関数呼び出しとエージェントワークフローで優れていますが、それは著しく大きく、リソース集約型のモデルであるためです。対照的に、GPT-OSSは、マルチGPUクラスターへのアクセスがない開発者でも利用可能なままで、競争力のある結果を提供します。
まとめると、オープンウェイトモデルの状況は多様な強みを示しています。GPT-OSSは、多くの密集モデルよりも小さいアクティブパラメータフットプリントで、フロンティアレベルの推論と長形式の思考の連鎖機能を提供する能力で際立っています。GLM-4.5は、重量級の密集モデルであり、エージェントワークフローと関数呼び出しでリードしますが、実質的に多くの計算リソースを必要とします。DeepSeek-R1とQwen3は、より大規模で強力なハイブリッド推論パフォーマンスを提供し、Kimi K2はよりコンパクトな設定で特殊なコーディングワークフローをターゲットにしています。
これにより、GPT-OSSは推論性能、コーディング能力、展開効率の間で印象的なバランスを取り、魅力的な提案となっています。実験、エージェントシステムへのシームレスな統合、およびリソースを意識した本番ワークロードに非常に適しています。