OpenAI、GPT-5を発表:複雑なタスク向け適応的推論統一AI
OpenAIは、複雑なタスクにおける適応的推論のために設計された統合AIシステムとして、GPT-5を正式に発表しました。この新しいアーキテクチャは、その前身の基礎的な進歩に基づいて構築されており、以前のモデルラインを統合することで、システムが与えられたクエリの複雑さに応じて計算上の「思考努力」を動的に調整できるようにします。これは、より信頼性が高く正確な応答を提供することを目的とした設計選択です。
GPT-5へのアクセスは段階的に提供され、無料ユーザーにとっては大きな変化となります。彼らは、論理的推論のために特別に設計されたモデルを初めて試すことができるようになります。一方、有料サブスクライバーは、より高い使用制限と一連の排他的な機能から恩恵を受けることができます。GPT-5の核は、単一のモノリシックなモデルではなく、統合されたシステムです。それは、日常的なクエリの大部分に対して高速で効率的なモデルであるgpt-5-main
を利用し、複雑な問題にはより深い推論モデルであるgpt-5-thinking
が呼び出されます。ユーザーからのフィードバックを通じて継続的に改善される洗練されたリアルタイムルーターは、質問の難易度、会話のコンテキスト、あるいは「これについて慎重に考えてください」といった明示的なユーザー指示などの要因に基づいて、適切なモデルをインテリジェントに選択します。「Pro」サブスクライバー向けに、OpenAIはGPT-5 Proを提供します。これは、挑戦的な質問の推論により多くの処理時間を費やすバリアントであり、外部評価者は困難なシナリオのほぼ68パーセントでgpt-5-thinking
よりもこれを好むと報告されています。
OpenAIは、GPT-5がプログラミング、ヘルスケア、ライティングを含む多様な分野で新たなベンチマークを確立すると主張しています。コーディングにおいて、このモデルは複雑なフロントエンドインターフェースを構築し、広範なコードベースをデバッグする卓越した能力で評価されており、SWE-bench Verifiedで74.9パーセント、Aider Polyglotで88パーセントのスコアを達成し、以前のイテレーションと比較してエラー率を3分の2に大幅に削減しました。健康関連の問い合わせについては、GPT-5はより正確な回答を提供することを目指しており、フォローアップの質問ができる「アクティブな思考パートナー」として機能します。要求の厳しいHealthBench Hardテストでは46.2パーセントのスコアを獲得し、前身の31.6パーセントから増加しましたが、OpenAIはそれが医療専門家の代替品ではないことを強調しています。その他のベンチマークでもさらなる性能向上が明らかになっており、GPT-5はAIME 2025(数学、ツールなし)で94.6パーセント、MMMU(マルチモーダル理解)で84.2パーセントのスコアを獲得しました。プレミアム版のGPT-5 Proは、非常に難しい科学問題に対するGPQAベンチマークで88.4パーセントのスコアを達成したと報告されています。
GPT-5の重要な約束は、「幻覚」—事実と異なる情報や無意味な情報の生成—の大幅な削減にあります。ウェブ検索機能が有効な場合、OpenAIはモデルがGPT-4oよりも事実誤りが約45パーセント少ないと述べています。純粋な「思考」モードでは、エラー率は前身と比較して驚異的な80パーセント減少します。LongFactやFActScoreのようなオープンな事実ベースのベンチマークでは、GPT-5は幻覚の発生を約6分の1に抑えました。最新のウェブデータがない場合でも、GPT-5の「思考」モードはLongFact-Concepts、LongFact-Objects、FActScoreにおいて0.8〜1.4パーセントの平均幻覚率を示し、以前のモデルで見られた24〜38パーセントから劇的に改善され、事実誤りが5倍以上減少したことになります。このモデルは、自身の限界に関する透明性を高めるようにも設計されています。CharXivベンチマークにおける存在しない画像に関する質問のテストでは、GPT-5は自信を持って作り話の回答を提供したのはわずか9パーセントの時間であり、前身の86.7パーセントとは対照的でした。全体として、代表的な会話における欺瞞率はGPT-5で4.8パーセントから2.1パーセントに減少したと報告されています。
GPT-5は、「セーフコンプリーションズ」(Safe Completions)という新しい安全パラダイムを導入しており、これは付随する研究論文で詳細に説明されています。このシステムは、OpenAIが特に曖昧なテーマや、情報が有益な目的と有害な目的の両方に適用されうるデュアルユースのテーマにおいて、柔軟性に欠けると判断した以前の「ハードリフューザル」(hard refusal)方法を置き換えます。GPT-5は、リクエストを完全にブロックするのではなく、ユーザーの意図のみを判断するのではなく、出力の安全性を優先します。モデルは、事前に定義された安全ガイドライン内で可能な限り役立つ応答を提供しようと努め、これには高レベルの概要、部分的な回答、または代替の視点の提供が含まれる場合があります。人間の評価者は、このアプローチがより安全で、より役に立ち、よりバランスが取れていると報告しています。これと一致して、GPT-5-thinkingは、CAISI(米国)やUK AISIなどのパートナーによって5,000時間以上にわたる厳格なレッドチームテストが実施された後、OpenAIのPreparedness Frameworkの下で生物学と化学において「高能力」と評価されています。
GPT-5は、そのコア機能に加え、APIにいくつかの新機能をもたらし、開発者がモデルの推論努力と冗長性をより細かく制御できるようになりました。「カスタムツール」(Custom Tools)は、厳密なJSONではなくプレーンテキストを使用して呼び出すことができるようになり、これにより複雑な入力でのエラーが最小限に抑えられると期待されています。コンテキストウィンドウは大幅に拡張され、272,000入力トークンと128,000出力トークンに対応できるようになりました。APIは現在、gpt-5
、gpt-5-mini
、gpt-5-nano
の3種類のモデルサイズを提供しており、gpt-5
は最も強力な「思考」バリアントとして指定され、100万入力トークンあたり1.25ドル、100万出力トークンあたり10ドルで提供されます。
ChatGPTのユーザーインターフェースも更新されています。新しいモデルは、大幅に「おべっか使い」が少なくなるように設計されており、この行動はテストで14.5パーセントから6パーセント未満に減少したと報告されています。ユーザーはチャットの視覚的な外観をカスタマイズできるようになり、研究プレビューとして、「皮肉屋」(Cynic)や「オタク」(Nerd)など4つのプリセットされた個性から選択できるようになります。GPT-5の展開は直ちに開始され、チーム、エンタープライズ、教育機関の顧客向けの新しいデフォルトモデルとなり、Plusサブスクライバーはより高い使用制限を受け、ProユーザーはGPT-5への無制限アクセスとGPT-5 Proへの排他的アクセスを得られます。