GPT-5の画像生成における幻覚:地図とタイムラインの欠陥
OpenAIが最近発表したGPT-5は、同社の主力大規模言語モデルとして、前身モデルよりも強化された推論能力とより正確な応答を約束しています。しかし、初期の実践テストでは、このモデルが多くの分野で優れている一方で、グラフィック内のテキストの正確なレンダリングには依然として大きく苦戦しており、しばしば「もう一つの現実」から来たかのような情報を生成していることが示唆されています。
ソーシャルメディアでGPT-5がインフォグラフィックにおいて「幻覚」(事実と異なる、または無意味な情報を生成すること)を起こしているとの報告を受け、我々のテストは「各州の名前が記載されたアメリカの地図を生成してください」というシンプルなリクエストから始まりました。結果として得られた画像は、州のサイズや形状は正しく描かれていたものの、スペルミスや捏造された名前が散見されました。オレゴンは「Onegon」に、オクラホマは「Gelahbrin」に、ミネソタは「Ternia」とラベル付けされていました。驚くべきことに、モンタナとカンザスのみが正しく識別され、他の州の名前の文字はほとんど判読不能でした。
これがアメリカ固有の異常であるかを確認するため、次に「すべての国名が記載された南アメリカの地図」を要求しました。GPT-5はわずかな改善を見せ、アルゼンチン、ブラジル、ボリビア、コロンビア、ペルーといった主要国は正しく識別しましたが、エラーは依然として残りました。エクアドルは「Felizio」に、スリナムは「Guriname」に、ウルグアイは「Urigim」と表示されました。さらに混乱を招いたのは、チリの国名が奇妙にもアルゼンチン南部に重ねて表示されていたことです。
課題は地理にとどまりませんでした。「すべての歴代大統領の名前が記載されたアメリカ大統領のタイムラインを描いてください」と促された際、GPT-5はこれまでで最も不正確なグラフィックを出力しました。タイムラインには26人の大統領しかリストされておらず、年号は論理的でなく個人と一致せず、多数の名前が完全に捏造されていました。例えば、4番目の大統領は「Willian H. Brusen」と特定され、1991年にホワイトハウスに住んでいたとされていました。他の架空の指導者には、1934年のHenbert Bowenや1879年のBenlohin Barrisonが含まれ、トーマス・ジェファーソンの名前でさえスペルミスがありました。
興味深いことに、モデルに「ジェームズ・ボンドを演じたすべての俳優を順番に示したインフォグラフィックを作成してください」と尋ねたところ、明確な対照が浮上しました。最初のテキストのみの出力の後、画像を含めるように促すと、驚くほど正確なタイムラインが生成され、ショーン・コネリーの「ダイヤモンドは永遠に」での役割だけが省略されていました。この予期せぬ成功は、奇妙な矛盾を浮き彫りにしています。
重要なのは、GPT-5が、正しく図示できないクエリに対しても、正確なテキスト情報を提供できる能力を完璧に備えていることです。アメリカの州、南米の国々、またはアメリカ大統領の単純なリストを求められた場合、モデルは正確な回答を出力しました。観察された唯一の軽微なテキストの不正確さは、ジョー・バイデンの任期が「2021年-現在」と記載されていたことであり、これはモデルの訓練データが最新の政治情勢を網羅していない可能性を示唆しています。OpenAIは、このモデルの具体的な訓練日をまだ開示していません。
GPT-5が画像内の埋め込みテキストに苦戦する正確な理由は、OpenAIによって未確認です。しかし、業界の専門家は、画像生成がしばしばノイズから画像を再構築することでモデルが学習する「拡散」プロセスに依存しているため、正確なテキストのレンダリングは本質的に困難であると理論付けています。歴史的に見ても、拡散モデルによって生成されたテキストは、 coherentな言語というよりも、判読不能な象形文字に似ていることが多かったのです。この困難はOpenAIに固有のものではありません。例えば、Bing Image Creatorも同様に欠陥のあるアメリカの地図を生成し、国名を「United States Ameriicca」と誤って綴ることさえあり、ジェームズ・ボンドのタイムラインにも苦戦しました。
他の主要なAIモデルもそれぞれ独自の癖を示しています。AnthropicのClaudeは、アメリカの地図を求められた際、州名を正確に示しましたが、従来の画像ではなくSVGコードファイルを生成し、結果としてボックス内にリストのような出力が生成されました。興味深いことに、GPT-5がコードベースの地図生成のために「キャンバス」機能を使用するように指示された場合、正確な結果を生成しました。これは、問題が具体的にその画像生成パイプラインにあるのであって、事実データを処理したりコードを生成したりする能力にあるのではないことを示唆しています。GoogleのGeminiは、アメリカの地図ではGPT-5よりも性能が劣りましたが(正しい州名を一つも生成しなかった)、非常に詳細なジェームズ・ボンドのインフォグラフィックを作成し、多くのリピートキャストメンバーまで含んでいました。
最終的に、生成された画像内にテキストを正確に埋め込むという課題は、現在の主要な大規模言語モデルと画像生成器にとって広範なハードルとなっているようです。これらの高度なAIは、テキスト形式で事実情報を簡単に想起し提示できる一方で、その知識をグラフィック内の視覚的に正確なラベルに変換することは、重要でありながら、しばしば滑稽なほど欠陥のある作業であり続けています—ただし、ジェームズ・ボンドがテーマの場合を除いては、そうではないようです。