OpenAI GPT-5発表:専門家AIモデル、その能力と初期反応

Gradientflow

OpenAIはGPT-5を発表し、その最新の大規模言語モデルを、複雑なタスクとのAIインタラクションを再定義する「専門家レベル」の基盤システムとして位置づけています。複雑さに基づいてクエリを専門のサブモデルにインテリジェントにルーティングする統合アーキテクチャとして宣伝されているGPT-5は、要求の厳しい問題に対して「博士号レベル」の応答を約束しつつ、より単純なリクエストに対しては低遅延を維持します。これは、ユーザーが速度と深度を手動で選択していた以前のモデルからの大きな転換を示しており、この発表は熱狂と懐疑が入り混じった反応を引き起こしました。

GPT-5の進歩の核心は、特にコーディングと事実の正確性における堅牢なパフォーマンス向上にあります。実際のソフトウェアエンジニアリングベンチマークSWE-bench Verifiedでは、GPT-5は74.9%を達成し、前身のo3の69.1%を大幅に上回りました。また、多言語コーディングのAider Polyglotでは88%を記録しています。これにより、モデルは単一のプロンプトから完全なフルスタックアプリケーションを構築でき、依存関係のインストールからライブUIプレビューまで全てを処理し、複雑なフロントエンド生成において優れた能力を発揮します。決定的に、GPT-5は幻覚を劇的に減少させます。Web検索と統合した場合、その応答が事実誤りを含む可能性はGPT-4oよりも約45%低く、専用の推論モードではOpenAI o3と比較して80%も減少します。実用的なテストでは、この点が強調されています。自由形式の事実検索プロンプトにおいて、GPT-5は幻覚が6分の1に減少し、画像が欠落している場合でも、自信を持って誤った回答をするのはわずか9%に過ぎず、o3の86.7%とは starkな対照をなしています。

テキストを超えて、GPT-5はマルチモーダルな限界を押し広げ、視覚的推論のMMMUベンチマークで84.2%という新たなSOTA(State-of-the-Art)を達成しました。画像、チャート、図を高精度で解釈し、フロントエンドアセットを生成または編集し、SVGアニメーションを作成し、さらには3Dゲームをその場で開発することも可能です。ChatGPTの音声インターフェースは、人間らしい自然な音声を実現し、カメラフィードを解釈し、応答スタイルを動的に調整できるようになりました。開発者向けには、APIにレイテンシと深度をトレードオフするための reasoning_effort や、出力の簡潔さを制御するための verbosity などの重要なパラメータが導入されました。カスタムツールはJSONを介さずプレーンテキスト入力をサポートするようになり、コンテキストウィンドウはGPT-4の2倍にあたる400Kトークンに拡張され、広範なドキュメントの合成に効果的です。

GPT-5は、自律性、コミュニケーション、コンテキスト管理を発揮する協力的なAIチームメイトとして特別に訓練されています。事前に計画を提供し、進捗状況の更新を提示し、自動的にテストを実行し、反復的な構築を通じて自己デバッグすることさえ可能です。Scaleのマルチチャレンジベンチマークで70%のスコアを獲得したことで、一連のツール呼び出し全体でコンテキストを維持する能力が証明され、CursorはGPT-5をデフォルトとして採用しました。早期のエンタープライズテスターはすでに説得力のあるユースケースを特定しています。Amgenは複雑な科学データを用いた深層推論に活用し、BBVAは財務分析タスクが数週間から数時間に短縮されるのを経験し、Oscar Healthは臨床推論、特に複雑な医療ポリシーのマッピングに利用しています。米国連邦政府は、200万人の従業員にアクセスを提供する計画です。

OpenAIはGPT-5の価格設定を段階的なモデルで構築しました。フル機能のGPT-5は、入力トークン100万あたり1.25ドル、出力トークン100万あたり10.00ドルで、ChatGPTおよびAPIのデフォルトとして機能します。より経済的なGPT-5 Miniも利用可能で、高度に最適化されたGPT-5 Nanoは、エッジおよびレイテンシが重要なアプリケーション向けに設計されており、約25倍安価です。アクセスは段階的で、無料ユーザーはGPT-5から開始し、その後Miniに移行します。PlusおよびProの購読者は、段階的に高いまたは無制限の使用制限を受け取ります。チーム、エンタープライズ、EDUアカウントは寛大なデフォルトアクセスを獲得し、すべての検証済み組織は即座にAPIアクセスを受けます。

安全性に関して、GPT-5は「安全な補完」アプローチを導入し、機密性の高い要求を完全に拒否するだけでなく、その先を目指しています。特に「デュアルユース」領域において、安全性の範囲内で有用性を最大化し、部分的な回答を提供したり、制限を説明したりすることで、不要な定型文を削減することを目指しています。これらの進歩にもかかわらず、初期の反応は賛否両論です。強化されたコーディング能力、幻覚の減少、APIの改善、そして報告された時間短縮は賞賛を集めていますが、一部の観察者はGPT-5を革命的な飛躍ではなく、漸進的な「GPT-4.5」と見ています。ベンチマークのプレゼンテーションにおける「バイブチャーティング」(視覚的に小さな進歩を誇張すること、例えばSWE-benchで最先端技術をわずか0.4%上回る改善など)に関する懸念が提起されています。デモにおける技術的な誤り、例えばベルヌーイ効果の誤った説明などは、その「博士号レベル」の知能に対する懐疑心を煽っています。さらに、GPT-5が真に統合されたモデルなのか、それとも巧妙なオーケストレーションに過ぎないのかという疑問が残っており、これがレイテンシに敏感なアプリケーションにおけるその利点を制限する可能性があります。