OpenAIがGPT-5展開の問題を認め、GPT-4oをユーザーに再提供
OpenAIの共同創設者兼CEOであるサム・アルトマンは、同社の新しいフラッグシップ大規模言語モデル(LLM)であるGPT-5の最近の展開に続いて、重大な課題があったことを公に認めました。OpenAIのこれまでで最も強力で有能なモデルとして宣伝されたものの、そのローンチは、モデル切り替えの不具合、一貫性のないパフォーマンス、広範なユーザーの混乱など、さまざまな問題によって損なわれました。これらの問題により、OpenAIはプラットフォームの一部変更を部分的に元に戻し、特にGPT-4oのような以前のモデルへのユーザーアクセスを再開しました。
RedditとX(旧Twitter)でのユーザーとの率直なやり取りの中で、アルトマン氏はローンチが「予想よりも少し困難だった」と認めました。彼は、OpenAIのGPT-5ライブストリーム中に示されたパフォーマンスチャートの誤りを人為的なミスに起因するとし、「人々は遅くまで働き、非常に疲れていた」と述べました。付属のブログ投稿とシステムカードは正確であったものの、これらの誤りは、初期の採用者や開発者からの監視にすでに直面していたローンチをさらに複雑にしました。OpenAIはその後、ChatGPT Plusユーザー向けのGPT-5レート制限を2倍にし、PlusユーザーがGPT-4oを選択できるようにし続け、レガシーモデルのサポート期間を検討しながら使用状況を監視する予定です。
アルトマン氏によると、中断の主な原因は、OpenAIの新しい自動「ルーター」の誤動作でした。このシステムは、ユーザーのプロンプトを4つのGPT-5バリアント(レギュラー、ミニ、ナノ、プロ)のいずれかに割り当て、より複雑な推論タスクにはオプションの「思考モード」を提供するように設計されています。アルトマン氏は、このシステムの重要なコンポーネントである「オートスイッチャー」が「一日のかなりの時間、機能停止していた」ため、GPT-5が意図したよりも「はるかに賢くない」ように見えたと明かしました。これに対応して、OpenAIはより良いパフォーマンスのためにモデル決定境界を調整する予定であり、どのモデルが特定のクエリに応答しているかを示すことで透明性を高めます。思考モードの手動トリガーを容易にするためのユーザーインターフェースの更新も計画中です。
OpenAIの内部ベンチマークではGPT-5が大規模言語モデルのトップを走っていると示唆されているにもかかわらず、実際のユーザー体験は異なる状況を示しています。ローンチ以来、多くのユーザーがGPT-5が数学、論理、コーディングタスクで根本的なエラーを犯す例を共有しています。たとえば、データサイエンティストのコリン・フレーザーは、GPT-5が8.888の繰り返しが9に等しいと誤って判断したスクリーンショットを投稿し、別のユーザーは単純な代数問題での失敗を強調しました。開発者も失望を表明しており、一部はGPT-5が、競合するAIラボであるAnthropicの新しいClaude Opus 4.1よりも、「ワンショット」プログラミングタスク(単一のプロンプトからタスクを正確に完了する必要がある)で劣っていたと報告しています。さらに、セキュリティ企業SPLXは、GPT-5の安全層が大幅に強化されない限り、プロンプトインジェクションや難読化されたロジック攻撃に対して脆弱なままであることを特定しました。
ChatGPTが週に7億人のユーザーにサービスを提供していることから、OpenAIはオーディエンス規模で生成AIの最大のプレーヤーとしての地位を維持しています。しかし、この巨大な規模はかなりの成長痛をもたらしています。アルトマン氏は、GPT-5のローンチから24時間以内にAPIトラフィックが2倍になり、プラットフォームの不安定性に寄与したと指摘しました。OpenAIは、ChatGPT Plusユーザーのレート制限を2倍にし、フィードバックに基づいてインフラストラクチャを継続的に調整することでこれを軽減することを目指していますが、これらの初期の誤り—混乱を招くユーザー体験の変更や注目度の高いローンチエラーによって悪化したもの—は、競合他社が優位に立つ機会を生み出しました。OpenAIには、GPT-5が単なる段階的なアップデートではなく、実質的な飛躍であることを示すための圧力が高まっています。最初の展開に基づいて、多くのユーザーはまだ納得していません。