GPT-5、期待外れ:漸進的進化にユーザー落胆

Theverge

OpenAIのGPT-5が先週リリースされ、テクノロジー界全体で熱狂的な期待の波を巻き起こしましたが、結果的には広範囲にわたる失望を招きました。大々的な発表を前に、OpenAIのCEOであるサム・アルトマンは、GPT-5を「二度と戻りたくないもの」と宣言し、レティーナディスプレイを搭載したiPhoneの画期的なデビューに例えていました。発表ライブストリームの前夜、アルトマンはさらに憶測を煽るようにデススターの画像を投稿し、Xのあるユーザーは雰囲気を「クリスマスイブ」のようだと表現しました。ChatGPTの開発元にすべての目が向けられ、この莫大な宣伝が革命的な飛躍につながるのか、それとも期待外れに終わるのか、誰もが知りたがっていました。ほとんどの評価によれば、結果は後者でした。

OpenAIの待望のモデルに対する熱狂は、2023年のGPT-4リリース以来、何年にもわたって高まっていました。昨年10月のReddit AMA(Ask Me Anything)では、ユーザーはアルトマンとそのチームに対し、GPT-5の機能とリリース日について繰り返し質問し、あるRedditユーザーは「なぜGPT-5はこんなに時間がかかっているのですか?」と単刀直入に尋ねました。アルトマンは遅延を計算能力の限界に起因するとし、これらのモデルの複雑さの増大と並行開発の困難さを指摘しました。

しかし、GPT-5が最終的にChatGPTを通じて利用可能になると、ユーザーの反応は概ね冷淡でした。多くの人が期待していた顕著な進歩は漸進的に見え、モデルの主な改善点は運用コストと処理速度などの分野で観察されました。これらはそれほど華々しくはありませんが、長期的にはOpenAIにとって堅実な財務戦略となる可能性があります。

GPT-5に対する世間の期待は非常に高く、あるXユーザーは、アルトマンのデススターの投稿だけで「皆の期待をシフトさせた」とコメントしました。OpenAIはこれらの予測を抑えることはほとんどせず、GPT-5を「これまでで最高のAIシステム」であり、「知能における大きな飛躍」と宣伝し、「コーディング、数学、ライティング、健康、視覚認識など、あらゆる分野で最先端のパフォーマンス」を誇っていました。アルトマン自身も、モデルとの会話は「博士号レベルの専門家と話しているようだった」と主張しました。

この野心的な誇大広告は、ユーザーが経験した現実と著しい対照をなしました。ソーシャルメディアはすぐにGPT-5の不可解なエラーの例で溢れかえりました。例えば、博士号レベルの知能を持つモデルが、「blueberry」に「b」が3つあると繰り返し主張したり、米国州名に「R」が含まれるものがいくつあるかを特定できなかったりするでしょうか?ユーザーはまた、モデルが米国地図を「New Jefst」や「Krizona」といった架空の州名で誤ってラベル付けしたり、ネバダ州をカリフォルニア州の延長として誤認したりする事例も報告しました。さらに、感情的なサポートをチャットボットに頼っていたユーザーは、新しいシステムを厳格で冷淡だと感じ、強い反発を招いたため、OpenAIは一時的に古いモデルのサポートを復活させました。この失望はミームまで生み出し、ある有名なミームではGPT-4とGPT-4oが強大なドラゴンとして描かれ、GPT-5は単なる愚か者に貶められていました。

専門家の世論も同様に容赦ありませんでした。ニューヨーク大学の名誉心理学教授で著名なAI業界のオピニオンリーダーであるゲイリー・マーカスは、このモデルを「時期尚早で、過剰に宣伝され、期待外れ」と特徴づけました。AI政策戦略研究所の共同創設者であるピーター・ウィルデフォードは、自身のレビューで「これは私たちが探していた大規模な成功でしょうか?残念ながら、いいえ」と結論付けました。人気AI業界ブロガーのズヴィ・モショヴィッツは、「良いが、偉大ではないモデル」と評価し、公式のGPT-5 Reddit AMAのあるRedditユーザーは、「誰かサムに、5はひどいゴミだと教えてくれ」とぶっきらぼうに宣言しました。

GPT-5のリリース後数日で、当初の不評の波は幾分和らぎました。新たなコンセンサスは、GPT-5が多くの人が期待した記念碑的な進歩をもたらさなかったものの、コスト効率、速度、そして特に「ハルシネーション」(事実誤認)の削減において、意味のあるアップグレードを提供していることを示唆しています。また、クエリを最も適切なバックエンドモデルに自動的にルーティングする新しい「スイッチシステム」も導入されました。アルトマンはそれ以来、この物語に傾倒し、「GPT-5は私たちがこれまでに作った中で最も賢いモデルですが、私たちが最も注力したのは、実用性と大規模なアクセシビリティ/手頃な価格です」と述べています。OpenAIの研究者クリスティーナ・キムもこれに同意し、Xに「本当の物語は有用性です。それは人々が関心を持つこと、つまりコードの出荷、創造的な執筆、健康情報のナビゲートを、より安定して、より少ない摩擦で助けます」と投稿しました。彼女は、その改善されたキャリブレーション、不確実性を認める能力、そして引用を用いて回答を根拠付ける能力を強調しました。

これらの主張された改善にもかかわらず、GPT-5が逆説的にChatGPTをあまり雄弁でなくしたという広範な感情が残っています。バイラル化したソーシャルメディアの投稿は、その文章におけるニュアンスと深みの欠如を嘆き、しばしばロボット的で冷たいと表現しています。OpenAI自身のマーケティング資料でさえ、GPT-4oとGPT-5が生成した結婚式の乾杯のスピーチを並べて比較したものでも、新しいモデルの明確な勝利を示すものではありませんでした。アルトマンがRedditユーザーに、GPT-5がライティングタスクにおいて優れていると感じるかどうかを直接尋ねたところ、彼は引退したGPT-4oモデルへの圧倒的な支持に遭遇し、その結果、彼は一日以内に一時的にChatGPTにGPT-4oを復元しました。

しかし、GPT-5が真に輝くと思われる領域はコーディングです。GPT-5のあるバージョンは現在、コーディングカテゴリで最も人気のあるAIモデルのリーダーボードをリードしており、AnthropicのClaudeのような競合他社を上回っています。OpenAIのローンチデモンストレーションでは、ゲーム、ピクセルアートツール、ドラムシミュレーター、およびロファイビジュアライザーを生成する能力が強調されました。複雑なプロジェクトではまだグリッチが見られるかもしれませんが、このモデルは、インタラクティブな刺繍レッスンを作成するなど、より単純なコーディングタスクで有望な結果を示しています。これは、AnthropicやGoogleといったライバルと競合する、激しいAIコーディングの分野におけるOpenAIにとって大きな勝利を意味します。企業はAIコーディングソリューションに多額の投資を惜しまず、これは通常現金を燃やすAIスタートアップにとって最も現実的で実質的な収益源の一つとなっています。OpenAIはまた、GPT-5のヘルスケアにおける可能性も強調しましたが、この分野でのその実用的な有効性は依然としてほとんどテストされていません。

近年、AIベンチマークの重要性は低下しています。ベンチマークは頻繁に変化し、企業は結果を選択的に開示するためです。それにもかかわらず、それらはGPT-5のパフォーマンスを合理的に捉えることができます。このモデルは多くの業界テストで前任者を上回りましたが、ウィルデフォードが指摘したように、この改善は「予想されるもの、つまり漠然としたデススターのミームに値するものではなく、小さな、漸進的な増加」に過ぎませんでした。しかし、近年の歴史が示唆するように、これらの控えめな、漸進的な進歩は、個々の消費者を感動させるためだけに設計された機能よりも、具体的な利益につながる可能性が高いです。AI企業は、主要な収益源が企業顧客、政府契約、および投資から得られることを理解しています。この文脈において、確立されたベンチマークにおける一貫した漸進的な進歩は、強化されたコーディング能力とエラーの削減と相まって、これらの儲かる道を活用するための最も効果的な戦略を表しています。