GPT-5:リークが示すのは控えめなアップグレード、OpenAIのブレイクスルーではない
OpenAIは、次期フラッグシップ大規模言語モデルであるGPT-5の発表を準備していますが、期待されているのは革命的な飛躍ではなく、控えめなアップグレードにとどまるとの見方が強まっています。2023年3月にリリースされたGPT-4に続き、GPT-5の内部テストでは、プログラミング、数学、複雑な指示の実行(顧客サービスワークフローの自動化を含む)などの分野で進捗が見られます。しかし、期待される能力の向上は、GPT-3(2020年)からGPT-4(2023年)への大幅な飛躍に比べてかなり小さいとされています。
評価に詳しい情報筋によると、GPT-5はよりユーザーフレンドリーなアプリケーションを促進し、計算リソースの管理を改善するとのことです。これらの進歩にもかかわらず、全体的な改善は段階的であると説明されています。
この停滞は、著名なAI関係者による予測と一致しています。マイクロソフト共同創設者のビル・ゲイツは2023年後半にこれを予測しており、ゲイリー・マーカス、元OpenAI主任研究員のイリヤ・サツケヴァー、Metaのヤン・ルカンといったLLM評論家たちは、現在のほとんどの大規模言語モデルを支えるTransformerベースのアーキテクチャが限界に達していると繰り返し主張しています。
これらの課題の象徴的な例が、OpenAIの内部モデル「Orion」です。当初、GPT-4oの直接の後継として開発されたOrionは、期待された成果を上げることができませんでした。その後、2025年初頭にGPT-5の名称を得ることなく、GPT-4.5としてリリースされました。GPT-4.5はほとんど影響を与えず、GPT-4oよりも動作が遅く、コストもかかると報じられ、すぐに注目されなくなりました。The Informationによると、根本的な問題は、小規模モデルで機能した事前学習の変更が、大規模モデルには効果的にスケールしなかったことです。同時に、OpenAIはトレーニング用の高品質なウェブデータの供給が減少しているという問題に直面していました。2025年6月の時点でも、OpenAIが開発中のモデルの中で、GPT-5と呼べるほど強力なものは一つもありませんでした。
この課題はOpenAIに特有のものではありません。Anthropicの最近のClaude 4モデルも、コーディング性能の顕著な向上を除けば、全体的な改善は控えめでした。Anthropicはすでに、大規模言語モデルと特殊な推論コンポーネントを組み合わせたハイブリッドアーキテクチャを利用しており、これはOpenAIがGPT-5で採用する可能性のあるアプローチとよく似ています。
主要な生成モデル以外にも、OpenAIは「大規模推論モデル」(LRM)の開発を進めています。これらのモデルは、より多くの計算能力を割り当てられた場合に複雑なタスクでより良い性能を発揮する傾向があり、数学、ウェブ検索、プログラミングの貴重なツールとなる可能性を秘めています。あるいは、言語モデルに全く新しい方向性を示すかもしれません。しかし、その汎用性とエネルギー要件については未解決の疑問が残っています。
OpenAIにとってこの分野での重要なブレイクスルーは、2023年後半に登場したQ*モデルでした。このモデルは、これまで遭遇したことのない数学の問題を解決したと報じられています。これに基づいて、OpenAIはo1とo3モデルを開発しました。これらはどちらもGPT-4oをベースにしており、専門的なアプリケーション向けに設計されています。o1とo3は両方とも強化学習(RL)を用いて訓練され、o3の「教師モデル」は、より多くの計算資源とウェブおよびコードソースへの直接アクセスを得ていました。RL訓練中、モデルは専門家レベルの質問に対する回答を生成し、その回答を人間の解決策と比較することで自身を改善します。
しかし、これらのモデルがチャット向けに調整された際、o3はその能力の一部を失ったと報じられています。ある情報筋がThe Informationに語ったところによると、チャットバージョンは「単純化」せざるを得ず、実際の会話には十分な訓練がされていなかったため、チャットとAPI設定の両方でパフォーマンスが低下しました。この問題は、4月のARC-AGIベンチマークで浮き彫りになりました。公開されたo3バージョンは、難しいパズルテストで内部のベースモデルよりも低い性能を示し、多くの元の推論能力がチャットへの移行で失われたことを示しています。
o3-proモデルは、この微妙なバランスをさらに示しています。専門家はo3-proを科学、プログラミング、ビジネスのタスクで高く評価しましたが、単純な日常業務には苦戦しました。例えば、「こんにちは、サム・アルトマンです」という返信に数分かかり、取るに足らない回答のために80ドルの計算コストがかかりました。これはまさに「考えすぎ」の典型例です。GPT-5は、専門的な推論能力と実用的な会話能力の間のバランスを取ることを目指しています。
これらの技術的なハードルにもかかわらず、GPT-5は「エージェント型」システムの進歩を推進することを意図しています。これは、AIが自律的に複数のステップを実行できるアプリケーションです。新しいモデルは、より少ない人間の監視で、複雑な指示をより効率的に実行できるようになるはずです。GPT-5は、大幅に計算能力を増やすことなく、GPT-4oの能力を超えることも予測されています。内部テストでは、どのタスクにどれくらいの計算能力が必要かをより適切に判断できることが示されており、これによりプロセスが効率化され、o3-proのようなモデルで見られるような「考えすぎ」を避けるのに役立つ可能性があります。
OpenAIにとって、GPT-5の控えめな改善であっても、顧客や投資家を引きつけ続けるには十分かもしれません。同社は高い運用コストにもかかわらず、依然として急速に成長しています。コーディング関連AIの競争分野では、Anthropicが現在Claudeモデルでリードしていますが、OpenAIはGPT-5で巻き返しを図りたいと考えています。
OpenAIは、強化学習、特にモデルの応答品質を自動的に評価する「ユニバーサル検証器」をますます活用しています。これは、創造的なライティングのような主観的なタスクに対しても有効です。このユニバーサル検証器は、最近国際数学オリンピックで金メダルを獲得したOpenAIのモデルでも使用されました。OpenAIの研究者ジェリー・トワレクは、このRLシステムが汎用人工知能(AGI)の基礎を形成する可能性があると示唆しています。