OpenAIのGPT-5発表会、「史上最悪のグラフミス」で台無しに

Theverge

木曜日に開催された待望のGPT-5ライブストリームで、OpenAIは新モデルの高度な能力を示す一連のグラフで視聴者を感銘させようとしました。しかし、詳しく調べてみると、いくつかの重要なデータの視覚的表現に重大な矛盾があることが明らかになり、同社のリーダーシップは迅速かつ率直にそれを認めました。

特に顕著な例は、皮肉にもGPT-5の「モデル間の欺瞞評価」におけるパフォーマンスを示すと称するグラフから現れました。「コーディング欺瞞」とラベル付けされた指標において、GPT-5は50.0パーセントの欺瞞率を示しました。しかし、より低い欺瞞率(47.4パーセント)を記録したより小型のOpenAIモデルo3が、グラフ上では不可解にもより大きな棒で表現されていました。この視覚的な歪みは、数値的に劣るスコアにもかかわらず、o3の方が優れたパフォーマンスを示しているように見えました。

グラフの問題はこれだけではありませんでした。別の問題のあるグラフでは、GPT-5のスコアの1つがo3よりも数値的に低いにもかかわらず、目に見えて大きな棒で描かれていました。さらに、同じグラフ上で、o3とGPT-4oのスコアは数値的に異なるにもかかわらず、同じサイズの棒で表現されており、データの視覚的整合性をさらに損なっていました。

これらの明白な矛盾は、OpenAIの最高幹部でさえ見過ごしませんでした。CEOのサム・アルトマンは、この失態を公に認め、「史上最悪のグラフミス」と称しました。さらに、OpenAIのマーケティング担当者も、「意図しないグラフの犯罪」と称されるものに対して謝罪を発表しました。エラーについて尋ねられた際、同社は直ちにそれ以上のコメントを提供しませんでした。

これらの視覚的な誤表現のタイミングは、OpenAIにとって特に厄介です。同社は、GPT-5の「幻覚の著しい削減における進歩」を大々的に宣伝してきました。これは、AIがもっともらしいが間違った情報を生成する大規模言語モデルにおける中心的な課題です。根本的なデータポイントに関わらず、それ自体が視覚的に誤解を招くグラフを提示することは、AI出力の正確性と信頼性を提唱する企業にとって不幸な印象を与えます。GPT-5自体がこれらの欠陥のあるグラフの生成に使用されたかどうかは不明ですが、この事件は、新モデルの精度と忠実性を強調することを意図した発表イベントに影を落とします。この出来事は、特に画期的な技術的進歩を世界中の聴衆に紹介する際に、綿密なデータ視覚化がいかに重要であるかを強調しています。