OpenAIのGPT-5がリリース:幻覚が減少し、着実な進化を遂げる
OpenAIは、最新かつ最も先進的な人工知能モデルであるGPT-5を発表しました。これは、同社の野心的なAIビジョンにおける重要な一歩となります。CEOのサム・アルトマンは、オンデマンドでアプリケーションを生成できる個人的な専門家との会話に例え、GPT-5が「オンデマンドソフトウェア」によって定義される時代を切り開くことを目指しています。コードデモンストレーションを交えた大規模なプレゼンテーションで行われたこの発表では、コーディング、ライティング、数学、視覚認識といった重要な領域におけるモデルの改善が謳われ、事実の不正確さや欺瞞的な出力の顕著な減少が強調されました。
GPT-5は、その前身とは異なり、単一のモノリシックなモデルではなく、洗練されたアンサンブルです。OpenAIのシステムは、ユーザーの意図やリクエストの複雑さなどの要因に基づいて、ユーザーのプロンプトをさまざまな基盤モデルにインテリジェントにルーティングします。例えば、簡単なクエリは、迅速で「思慮深さ」の少ない応答のために設計された、より小さく効率的なモデルに送られる可能性があります。一方、複雑またはニュアンスのあるタスクは、より大きく、より深く推論するモデルを活性化させる可能性があります。この動的ルーティングは通常自動化されていますが、有料ユーザーはより深い推論機能を永続的に有効にするオプションがあります。OpenAIは、このルーティングメカニズムが新しい入力信号を通じて継続的に洗練されており、各リクエストに最適なモデルを識別し、より深い推論をいつ実行すべきかを判断する能力が向上していると述べています。現在のアーキテクチャにもかかわらず、同社は最終的にこれらの異なるコンポーネントを統一されたモデルに統合する計画です。
適応型構造に加え、OpenAIはこの設計が効率を大幅に向上させると主張しています。同社は、GPT-5がより少ない計算量からより大きな価値を引き出すと述べています。内部評価では、GPT-5は推論能力を発揮する際に、前身のOpenAI o3と同等の性能を達成したと報告されており、視覚推論、自動コーディング、大学院レベルの科学問題解決を含む多様なタスクにおいて、出力トークンを50〜80パーセント削減しています。
GPT-5へのアクセスは、ユーザーのティアによって異なります。ChatGPT FreeおよびPlusの購読者は、標準のGPT-5とコンパクトな「ミニ」バージョンにアクセスできます。ProおよびEnterpriseユーザーは、拡張推論のために設計された「Pro」バージョンを利用でき、APIを介してやり取りするユーザーは、標準モデルおよびミニモデルに加えて、費用対効果の高い「Nano」バージョンにアクセスできます。
発表会で披露された壮大な主張や印象的なデモンストレーションにもかかわらず、公開されたベンチマーク結果はより微妙な絵を描いており、革命的というよりも漸進的な進歩を示唆していることが多いです。例えば、AIME 2025数学ベンチマークでは、GPT-5 Proは外部ツールを使用した場合、以前のフラッグシップであるo3モデルをわずか1.6ポイント上回り、外部ツールなしでは7.8ポイント上回りました。しかし、無料ティアのユーザーにとっては、GPT-4oから標準のGPT-5へのアップグレードは大幅であり、57.5ポイントのリードを示しています。他の数学ベンチマークでも同様の控えめな進歩が観察されました。博士号レベルの科学クイズや「人類最後の試験」のような高レベルの学術課題におけるパフォーマンスも、以前の世代のモデルと比較して一桁の改善を明らかにしました。GPT-5が真に際立っていたのは、会話エージェントのベンチマークであり、ツールの使用と複雑な指示に従う能力において著しい進歩を示しました。OpenAIの社長であるグレッグ・ブロックマンは、ベンチマークだけで進捗を測ることの難しさを認め、「あるベンチマークで98%から99%に移行する場合、それはモデルがいかに優れているかを真に捉えるために何か別のものが必要であることを意味します」と述べています。
GPT-5における最も説得力のある改善は、おそらくその信頼性の向上、特に大規模言語モデルが情報を「幻覚」したり捏造したりする傾向を抑制する点にあります。OpenAIは、GPT-5の応答がGPT-4oよりも事実誤りが約45%少ないと報告しています。推論能力を発揮する際には、OpenAI o3と比較して、事実の不正確さが80%も減少するという驚くべき数字に跳ね上がります。同社はまた、モデルがタスクの完了を偽って主張したり、不確実な回答に過度の自信を示したりするような欺瞞的な行動を検出・軽減するための厳格な評価を実施しています。実世界のチャットデータを用いたテストでは、欺瞞的な応答の割合がo3の4.8%からGPT-5の推論出力では2.1%に減少しました。
重要な安全面では、OpenAIは機密性の高い問い合わせを扱うための新しいプロトコルを導入しました。GPT-5は、潜在的に疑わしいプロンプトへの回答を単に拒否するのではなく(これは巧妙なプロンプトエンジニアリングによって回避されがちな一般的な制限です)、厳格な安全パラメータに従いながら、可能な限り包括的な回答を提供するように設計されています。例えば、揮発性化合物の点火に関する質問を完全に拒否する代わりに、モデルは関連するリスクに関する明確な警告を伴って、どこで情報を見つけるかについてのガイダンスを提供するかもしれません。
パーソナライゼーションの追加として、OpenAIはChatGPTインターフェースに4つの新しいオプションのパーソナリティ(シニカル、ロボット、リスナー、ナード)を展開しています。これらのパーソナリティは、当初はテキストチャットに限定され、音声機能は後で計画されていますが、ユーザーがAIのコミュニケーションスタイルを好みに合わせて調整できるようにします。OpenAIのチーフリサーチオフィサーであるマーク・チェンは、これらのパーソナリティがユーザーとの過度に媚びたり、追従的なやり取りを避けるように慎重に調整されていることを強調しました。
GPT-5モデルファミリーは、現在、ChatGPTを通じて無料、Plus、Proユーザーにアクセス可能であり、来週には企業および教育ユーザーにも提供が拡大されます。ChatGPTのサブスクリプション価格は変わらず、Plusティアが月額20ドル、無制限のProティアが月額200ドルです。プロフェッショナルは、OpenAIのAPIを通じてモデルにアクセスするオプションも引き続き利用できます。