OpenAIの新作オープンソースLLM、コミュニティの反応は賛否両論
OpenAI、その名前自体が開放性を意味する企業は、最近、寛容なApache 2.0オープンソースライセンスの下で2つの新しい大規模言語モデル(LLM)、gpt-oss-120Bとgpt-oss-20Bをリリースすることで、重要な転換を行いました。この動きは、OpenAIが2019年以来初めて最先端の言語モデルを無制限に使用できるように公開したものであり、過去2.7年間ChatGPT時代を特徴づけてきたプロプライエタリなクローズドソースのアプローチからの顕著な脱却を示しています。この期間中、ユーザーは通常、OpenAIのモデルへのアクセスに料金を支払い、カスタマイズは限定され、オフラインやプライベートなハードウェアで実行する能力はありませんでした。
新しいgpt-ossモデルは、強力なAIへのアクセスを民主化することを目指しています。より大きなgpt-oss-120Bは、単一のNvidia H100 GPUでのデプロイメント向けに設計されており、中小規模の企業データセンターに適しています。一方、その小型版であるgpt-oss-20Bは、コンシューマー向けラップトップで実行できるほど軽量です。しかし、OpenAI自身の強力なプロプライエタリな提供物と一致する印象的な技術ベンチマークを達成したにもかかわらず、より広範なAI開発者およびユーザーコミュニティは、映画のプレミアがレビューアグリゲーターでほぼ50/50の評価に分かれるように、非常に多様な意見で応じました。
初期の独立したテストでは、楽観的な熱意と不満の底流の間で揺れ動くフィードバックが得られています。批判の多くは、中国のスタートアップから登場している強力なマルチモーダルLLMとの直接比較に起因しています。これらのモデルもApache 2.0ライセンスであり、世界中のどこでも自由に改変し、ローカルで実行できます。
独立系企業Artificial Analysisのインテリジェンスベンチマークはgpt-oss-120Bを「最もインテリジェントなアメリカのオープンウェイトモデル」と位置付けていますが、DeepSeek R1やQwen3 235Bのような中国の重量級モデルと比較すると、依然として劣っています。この格差が懐疑論を煽っています。自称DeepSeek愛好家の@teortaxesTexは、これらのモデルは単に「ベンチマークで優位に立っただけ」のようだと述べ、優れた派生モデルや新しいユースケースの不足を予測しました。匿名で活動するオープンソースAI研究者であり、Nous Researchの共同創設者であるTekniumもこれに同調し、今回のリリースを「正真正銘の無意味なもの」と表現し、深い失望を表明し、中国の競合他社による迅速な追い抜きを予想しました。
さらなる批判は、gpt-ossモデルの知覚される狭い有用性に集中しています。AIインフルエンサーの「Lisan al Gaib」は、これらのモデルが数学とコーディングでは優れているものの、「完全にセンスと常識に欠けている」と指摘し、その広範な適用可能性に疑問を呈しました。この「ベンチマックス」アプローチ、つまり特定のベンチマークに過度に最適化する手法は、異常な出力につながると報告されています。Tekniumは、創造的なライティングテスト中に、モデルが詩の途中に積分式を挿入したスクリーンショットを共有しました。Prime Intellectの@kalomazeや元GoogleのKyle Corbittのような研究者は、gpt-ossモデルが主に合成データ(新しいモデルのトレーニングに特化して使用されるAI生成データ)でトレーニングされた可能性が高いと推測しました。このアプローチは、著作権問題を回避したり、現実世界のデータに関連する安全上の問題を回避するために採用された可能性がありますが、その結果、コーディングや数学などの訓練されたタスクでは非常に優れた性能を発揮するものの、創造的なライティングやレポート生成などのより言語的なタスクでは劣る、「極めて偏りのある」モデルが生まれています。
サードパーティのベンチマーク評価からも懸念が浮上しました。ユーザーのプロンプトに対するLLMの不許可または機密性の高い出力への適合性を評価するSpeechMapでは、gpt-oss-120Bが40%未満のスコアを記録し、同業他社の中でほぼ最下位に位置しました。これは、内部のガードレールにデフォルトで依存する強い傾向を示しています。AiderのPolyglot評価では、gpt-oss-120Bは多言語推論でわずか41.8%しか達成せず、競合他社に大きく遅れをとりました。一部のユーザーは、米国やEUへの対応とは対照的に、中国やロシアへの批判を生成することに異常な抵抗を示すと報告しており、そのトレーニングデータにおける潜在的なバイアスについて疑問が投げかけられています。
これらの批判にもかかわらず、すべての反応が否定的だったわけではありません。ソフトウェアエンジニアのサイモン・ウィリソンは、このリリースを「本当に印象的」と称賛し、モデルの効率性とOpenAI独自のo3-miniおよびo4-miniモデルとの同等性を達成する能力を強調しました。彼は、推論およびSTEM分野に特化したベンチマークでの強力なパフォーマンスに加え、革新的な「Harmony」プロンプトテンプレートとサードパーティツールの使用サポートを高く評価しました。Hugging FaceのCEOであるクレム・デランジュは、初期の問題がインフラの不安定性や最適化不足に起因する可能性があると示唆し、忍耐を促しました。彼は「オープンソースの力は不正がないことだ」と強調し、モデルの真の強みと限界が徐々に明らかになるだろうと保証しました。
ウォートン・スクールのイーサン・モリク教授は、米国が現在、主要なオープンウェイトモデルを保有している可能性を認めつつも、OpenAIの長期的なコミットメントに疑問を呈し、同社がモデルを更新し続けるインセンティブを欠けば、このリードは「急速に蒸発する」可能性があると指摘しました。アレン人工知能研究所(Ai2)の著名なAI研究者であるネイサン・ランバートは、特に西側諸国にとって、オープンエコシステムにおける今回のリリースの象徴的な重要性を称賛し、最も認知されたAIブランドがオープンリリースに回帰するという重要な一歩を認めました。しかし、彼は、gpt-ossがQwenのような中国の競合他社の既存の使いやすさと多様性のため、「意味のある形で減速させる可能性は低い」と警告しました。ランバートは、今回のリリースが米国におけるオープンモデルへの重要な転換を示す一方で、OpenAIが実際に追いつくには「長い道のり」があると結論付けました。