GPT-5:AIツールの石器時代とAGIの進化
OpenAIが満を持して発表したGPT-5が、約2年間の業界の憶測を経てついに登場しました。早期アクセスパートナーとして、私たちはこの新しいモデルを、自社プラットフォームのRaindrop.aiからCursorやCodexのような開発環境まで、さまざまなアプリケーションで広範にテストする機会を得ました。私たちの全体的な印象は?GPT-5は汎用人工知能(AGI)への深い飛躍を表しており、特にソフトウェアエンジニアリングの分野では、複雑なアプリケーションに取り組んだり、広大なコードベース内の複雑な問題を解決したりする際に、しばしば一度で成功させるという卓越した能力を発揮します。
しかし、話は単に「全面的に優れている」というほど単純ではありません。驚くべきことに、GPT-5は執筆に関しては、その前身であるGPT-4.5やGPT-4oよりも性能が劣ります。多くの一般的なタスクでは、ユーザーにすぐに超天才だと感じさせることはないでしょう。これらの見かけ上の欠陥は、逆説的に、AGIへの道のりにおける根本的な変化を照らし出しています。これを理解するためには、石器時代に目を向ける必要があります。
人類の知性の夜明けを定義するものは何でしょうか?それはチェスの試合に勝つことでも、複雑な定理を証明することでもありませんでした。石器時代は、ある決定的な発展によって明確に特徴づけられています。それは、人類が道具を使うことを学んだことです。私たちは道具を形作り、そして今度は道具が私たちを形作り、私たちの認知能力を根本的に変化させました。人間の知性は、その核心において、道具を通じて発現し、道具によって拡張されます。GPT-5は、AIエージェントと大規模言語モデルに新しい石器時代をもたらします。このモデルは単にツールを使うだけでなく、ツールで考え、ツールで構築します。
OpenAIの「Deep Research」機能は、基本的なウェブ検索からの重要な進化です。以前のChatGPTバージョンはウェブを検索できましたが、Deep Researchは研究を実施すること、つまり計画し、繰り返し、探索することを教えられました。ウェブ検索は、その思考プロセスに不可欠な一部となりました。GPT-5はこの哲学を、アクセスできる事実上すべてのツールに拡張します。ただし、それらのツールは強力で、有能で、オープンエンドに設計されており、多くの場合、自然言語の記述を入力として受け入れる必要があります。GPT-5にとって効果的なツールは、通常、内部検索(RAGシステムやSQLクエリなど)、ウェブ検索、コードインタープリター、および副作用を生じるアクション(ファイルの編集やUI要素のトリガーなど)の4つのカテゴリに分類されます。強力なツールの典型的な例はウェブ検索自体であり、GPT-5が何を検索するかを決定し、ツールがどのように処理するかを扱います。
もう一つの重要な進歩は、GPT-5の並列ツール呼び出しの熟練度です。以前のモデルも技術的にはこの能力を持っていましたが、正しくまたは一貫して実行することはめったにありませんでした。しかし、GPT-5は、特定のタスクに対してどのツールを同時に実行すべきか、あるいは順次実行すべきかを識別する知性を示します。この並列化は、レイテンシを劇的に削減し、モデルの運用範囲を広げ、まったく新しい製品の可能性を可能にします。
GPT-5と対話するには、視点の転換が必要です。ユーザーは「モデル」にプロンプトを出すのではなく、「エージェント」にプロンプトを出すと考えるべきです。広範なコンテキストを事前に読み込むのではなく、エージェントは環境をナビゲートするための「羅針盤」——明確で構造化されたガイダンス——を必要とします。例えば、大規模なコードベースでGPT-5と作業する場合、プロジェクトの目的、関連ファイル、組織構造、およびタスク完了のための明確な基準を指定することが重要です。モデルが詰まった場合、「いや、それは間違っている」という単純な指示よりも、「それを試して何を学んだか?」と尋ねる方が効果的です。このアプローチは教育に似ています。GPT-5は本質的な記憶を持たないため、コード標準を理解させ、各タスクを開始するためのヒントを与える必要があります。
私たちの観察は、GPT-5が非常に実用的で業界志向のモデルであり、一部の先行モデルのより「学術的」な傾向とは異なることを裏付けています。それは驚くほど指示可能で文字通りであり、Claudeのようなモデルに見られる明確な「個性」を示すことなく、要求を直接実行します。
GPT-5のコーディング能力は、その否定できないハイライトです。新しいSDKを統合する際の入れ子になった依存関係の競合を含む特に困難なテストでは、GPT-5は問題を一度で解決しました。これはClaude Opusや他の高度なモデルが達成できなかった偉業です。GPT-5はこれを経験豊富な研究者のように取り組み、フォルダーを調査し、診断コマンドを実行し、メモを取り、矛盾が生じたときには推論するために一時停止し、最終的に複数のディレクトリにわたって必要な行を正確に編集しました。この反復的で推論に基づいたデバッグは、他のモデルの試行錯誤のアプローチとは対照的でした。そのコーディング能力のさらなるデモンストレーションには、純粋なHTML、CSS、JavaScriptを使用してMac OS 9テーマの完全なウェブサイトを生成することが含まれていました。これには機能的なペイントアプリケーションと永続的なデータストレージが完備されており、すべて単一のプロンプトから作成され、驚くほど堅牢でした。本番環境対応のアプリケーションについても、GPT-5は優れており、複雑なClickhouseクエリとSQLiteデータベースを備えたフルスタックウェブサイトを単一のプロンプトで生成しました。これは、他のモデルが計画や不完全な足場しか提供しないことが多かったタスクです。
GPT-5の強化されたツール使用、並列処理、およびコスト効率は、長期実行型のAIエージェントの開発に特に適しています。私たちの会社はAI監視会社であり、長らく信頼できるエージェントを製品に統合することを模索してきました。GPT-5の機能、ツール呼び出しの失敗からの回復能力の向上や、グラフとチャートのどちらを生成すべきかを識別する能力などにより、ついにこれが実用的な現実となり、顧客へのベータ版展開が可能になりました。
しかし、GPT-5は優れたライターではありません。実際、GPT-4.5とDeepSeek R1はそれを大幅に上回ります。プロフェッショナルな執筆、例えばLinkedInの投稿を洗練させる場合、GPT-4.5はユーザーのトーンにより忠実に従い、利用可能なテキストを提供しますが、GPT-5は一般的で「LinkedInの駄文」のようなスタイルに傾倒しがちです。同様に、構造化されていない個人的な執筆の場合、GPT-4.5はより本物のトーンを維持し、典型的なLLMの出力のように聞こえません。
結論として、私たちの実体験はOpenAIの公式ベンチマークと一致しています。GPT-5は間違いなく世界をリードするコーディングモデルです。ソフトウェアエンジニアリングの自動化を推定65%から約72%まで進歩させ、GPT-3.5 Sonnet以来最も重要な飛躍を遂げました。開発者はその深遠な影響をすぐに理解するでしょうが、一般ユーザーは、今後数ヶ月でそれが日常の製品にシームレスに統合されるまで、その能力を十分に認識しないかもしれません。