OpenAI GPT-5、期待外れの船出:性能問題が続出、ユーザー評価は「並」

Venturebeat

待望のOpenAI GPT-5モデルのローンチは、ユーザーから報告された一連のエラーと広範な不満により、困難な船出となりました。ライブストリームでのプレゼンテーション自体にも、図表や音声デモでの不具合が含まれていましたが、ユーザーはすぐに、以前のOpenAIモデルや競合のAIシステムが正しく処理できたタスクでGPT-5がつまずく事例を指摘し始めました。

これらの失敗の顕著な例には、GPT-5が基本的な数学問題を正しく解けなかったことが挙げられます。データサイエンティストのコリン・フレーザー氏は、繰り返し小数8.888が9に等しいかどうか(実際は等しくない)をモデルが証明できないことを示すスクリーンショットを共有しました。また、小学生でも通常解けるような簡単な代数方程式、5.9 = x + 5.11でもつまずきました。さらに、OpenAI自身の誤ったプレゼンテーション図表を評価するためにGPT-5を使用しようとすると、役に立たない不正確な応答が返ってきました。このモデルは、人間にとっては当初トリッキーだった、より複雑な数学の文章問題でも苦戦しましたが、イーロン・マスクのGroq 4 AIは正確に解決しました。

数学的推論を超えて、GPT-5のコーディング能力は、強力な内部ベンチマークや一部の第三者ベンチマークにもかかわらず、実世界での応用では劣っているようです。ベンチマークは優位性を示唆していましたが、開発者たちは、Anthropicの最近更新されたClaude Opus 4.1が「ワンショット」タスク(ユーザーが望むアプリケーションやソフトウェアの構築を一度の試行で完了させること)において、しばしばより優れたパフォーマンスを発揮すると報告しています。この不一致は、理論的な性能指標と実用性との間のギャップを浮き彫りにしています。

ユーザーの不満をさらに増幅させているのは、OpenAIがChatGPTユーザー向けに、GPT-4oや強力な推論モデルo3を含む、古いながらも評価の高いモデルを段階的に廃止していることです。これらのモデルは開発者向けにはアプリケーションプログラミングインターフェース(API)を通じて引き続きアクセス可能ですが、主要なユーザーインターフェースからの削除は落胆をもって受け止められています。懸念事項に加えて、セキュリティ企業SPLXからの報告では、OpenAIの内部セキュリティ層に重大な脆弱性があることが示されており、特にビジネスアライメントやプロンプトインジェクション、難読化されたロジック攻撃に対する感受性の領域で顕著です。

AIコミュニティからの初期フィードバックは、ぬるい反応を示しています。AIインフルエンサーのビラワル・シドゥ氏がGPT-5の「雰囲気チェック」を求めて実施した世論調査では、圧倒的多数がそれを「並」と評価しました。この感情はソーシャルメディアプラットフォーム全体で反響を呼び、匿名のAI Leaks and Newsアカウントは、X(旧Twitter)とRedditの両方で「圧倒的に否定的」なコンセンサスがあることを指摘しました。ユーザーの不満の主な原因は、GPT-5の新しい「ルーター」機能にあります。これは、クエリの難易度に基づいて「思考」モードまたは「非思考」モードを自動的に選択するように設計されています。ユーザーは、このルーターが頻繁に能力の低い非思考モードにデフォルト設定され、複雑なクエリのパフォーマンスを妨げていると報告しています。

このぬるい反応は、特に競争が激化する中で、OpenAIにとって重大な課題を提起しています。GoogleやAnthropicのような主要な競合他社は、独自のLLMを急速に進化させています。さらに、強力で、多くの場合無料のオープンソースの中国製LLMが次々と登場し、競争力のある機能を提供しています。例えば、アリババのQwen 3モデルは最近、コンテキストウィンドウを100万トークンに更新し、GPT-5と比較して単一のインタラクションで約4倍の情報交換を可能にしました。OpenAIのもう一つの最近のリリースであるオープンソースのGPT-OSSモデルも、賛否両論の反応を受けました。この広範な背景と、最近のPolymarketの賭け市場でGoogleが2025年8月末までに最高のAIモデルを持つと予測されていることは、状況が変化していることを示唆しています。

初期の挫折にもかかわらず、Otherside AIの共同創設者兼CEOであるマット・シューマー氏のような一部の業界関係者は、ユーザーと開発者が新しいモデルへの統合アプローチを最適化するにつれて、否定的な見方が進化する可能性があると示唆しています。シューマー氏は、新しいモデルのリリースから企業がその機能を活用するためにシステムを完全に適応させるまでには、通常時間差があると仮定しています。しかし、これらの初期の兆候は、GPT-5がGPT-4や4oのような「ホームラン」となるリリースではないことを示唆しています。これは、最近別の資金調達ラウンドを確保したにもかかわらず、広範な研究開発費のために依然として不採算であるOpenAIにとって、懸念すべき信号です。