GPT-5:開発者評価は賛否両論、高い費用対効果が魅力
OpenAIが最近発表したGPT-5は、「真のコーディングコラボレーター」として、高品質なコード生成と自動ソフトウェアタスクの実行に優れると bold に主張されました。この発表は、AI支援コーディングを求める多くの開発者にとって頼れるツールとなっているAnthropicのClaude Codeに直接挑戦するものと思われました。しかし、開発者コミュニティからの初期の反応は、GPT-5のパフォーマンスがより微妙なものであり、能力の面で賛否両論を呈していることを示唆しています。
GPT-5は技術的推論とコーディングタスクの戦略的計画において高い適性を示しますが、一部の開発者は、Anthropicの最新モデルであるOpusとSonnetが依然としてより優れたコードを生成すると主張しています。繰り返し問題となるのは、GPT-5の冗長性です。設定によっては、モデルが過度に詳細な応答を生成し、不必要または冗長なコード行につながることがあります。さらに、OpenAI自身のGPT-5のコーディング能力評価方法も批判を浴びており、一部からはベンチマークが誤解を招くとの意見が出ています。ある調査会社は、OpenAIが公開したGPT-5の能力を宣伝するグラフィックを「チャート犯罪」とまで呼んでいます。
これらの批判にもかかわらず、GPT-5は1つの重要な分野で説得力のある利点を提供します。それは費用対効果です。プリンストン大学のコンピューターサイエンス博士課程の学生であり、『AI Snake Oil』の共著者でもある研究者Sayash Kapoorは、この違いを強調しています。彼のチームのベンチマークテストでは、言語モデルが45の科学論文の結果を再現する能力を測定する標準的な評価を実行するのに、GPT-5(中程度の冗長性設定)ではわずか30ドルしかかからないのに対し、AnthropicのOpus 4.1を使用すると同じテストに400ドルもの費用がかかります。KapoorのチームはすでにGPT-5のテストに約20,000ドルを投資しており、顕著なコスト差を浮き彫りにしています。
しかし、この手頃な価格は精度とのトレードオフを伴います。Kapoorのテストによると、GPT-5は経済的であるものの、一部の競合他社よりも精度が低いとされています。Claudeのプレミアムモデルは科学論文の再現において51%の精度を達成しましたが、GPT-5の中間バージョンはわずか27%でした。これは間接的な比較であることに注意が必要です。Opus 4.1はAnthropicの最も強力な製品であり、KapoorのチームはまだGPT-5の高冗長性設定で同じテストを実施していません。
OpenAIは、広報担当者Lindsay McCallumを通じて、GPT-5が「スタートアップや企業における初期テスターとの協力のもと、実際のコーディングタスクで」訓練されたと述べているブログに問い合わせを誘導しました。同社はまた、GPT-5の内部精度測定結果を公開し、より慎重な推論のために設計された「思考」モデルがOpenAIのモデルの中で最高の精度を達成したことを明らかにしました。しかし、「メイン」のGPT-5モデルは、OpenAIの内部精度スケールでは、以前にリリースされたモデルに依然として遅れを取っていました。Anthropicの広報担当者Amie Rotherhamは、「開発者が生産環境で使い始めると、パフォーマンスの主張や価格モデルはしばしば異なって見える」と強調し、推論モデルについては「トークンあたりの価格よりも結果あたりの価格が重要である」と示唆して応じました。
賛否両論のレビューがある中で、一部の開発者はGPT-5に関して概ね肯定的な経験を報告しています。エンジニア、投資家、そしてパーソナルスタイリングエージェントAltaの作成者であるJenny Wangは、GPT-5が複雑なコーディングタスクを一度で完了させるのに優れていることを発見し、彼女がコード生成や簡単な修正によく使用する古いOpenAIモデルを上回ったと述べています。例えば、GPT-5は特定のデザイン要素を持つ会社案内ページのコードを一度で生成しました。これは以前は反復的なプロンプトを必要とするタスクでしたが、Wangは「URLを幻覚した」と指摘しました。匿名を希望する別の開発者は、GPT-5が深い技術的問題を解決する能力を称賛し、複雑なネットワーク分析ツールプロジェクトにおけるその印象的な推奨事項と現実的なタイムラインを挙げました。Cursor、Windsurf、Notionを含むOpenAIのいくつかのエンタープライズパートナーは、GPT-5のコーディングおよび推論スキルを公に支持しており、Notionはテストされた他のモデルよりも複雑な作業を15%優れて処理すると主張しています。
逆に、一部の開発者はオンラインで即座に失望を表明しました。AIメールアシスタントを構築中のKieran Klassenは、GPT-5のコーディング能力が「時代遅れ」に見え、1年前にリリースされたAnthropicのSonnet 3.5に似ていると述べました。Doistの創設者Amir Salihefendićは、GPT-5を「かなり期待外れ」で「特にコーディングがひどい」と感じ、MetaのLlama 4の期待外れのリリースと比較しました。開発者のMckay WrigleyはGPT-5を「驚異的な日常チャットモデル」と称賛しましたが、コーディングタスクにはClaude CodeとOpusを使い続けることを確認しました。モデルの「徹底的」な性質は、時に役立つものの、苛立たしいほど冗長であるとも評され、Wangは「より冗長な」解決策に傾く傾向があると指摘しました。
AIコーディングプラットフォームQodoの共同創設者兼CEOであるItamar Friedmanは、批判の一部は変化する期待に起因すると示唆しています。彼は、AIモデルが全体的に改善された「ChatGPT以前の時代」(BCE)と、進歩がしばしば専門化される現在のChatGPT後の状況を区別しています。彼は、コーディングにおけるClaude Sonnet 3.5の優位性と、コードレビューにおけるGoogle Geminiの強さを例として挙げました。
OpenAIはまた、ベンチマークテストの方法論についても精査を受けています。調査会社のSemiAnalysisは、OpenAIが、大規模言語モデルを評価するための標準的なAI業界フレームワークであるSWE-benchに含まれる通常500のテストのうち、477しか実施していないと指摘しました。OpenAIは、これらのタスクが内部インフラストラクチャで検証されているため、常に477の固定サブセットを使用していると明確にし、モデルの冗長性設定の変動が評価パフォーマンスに影響を与える可能性があると付け加えました。
最終的に、最先端のAI企業は複雑なトレードオフに取り組んでいるとSayash Kapoorは述べています。新しいモデルを訓練する開発者は、ユーザーの期待、エージェントコーディングのような多様なタスクでのパフォーマンス、およびコストのバランスを取る必要があります。Kapoorは、OpenAIがすべてのベンチマークで優位に立つことはできないと認識しており、幅広いユーザーに広くアピールできるモデルを作成し、魅力的なコストパフォーマンス比を優先することを目的とした可能性が高いと推測しています。