視覚AIモデルが「存在しない錯覚」を見る:機械知覚のギャップが明らかに
視覚能力を持つ高度な人工知能モデルが、奇妙な形の自己欺瞞を示しています。実際には錯視が存在しない画像の中に、錯視を認識しているのです。研究者によって「イリュージョン・イリュージョン」(illusion-illusions)と名付けられたこの現象は、これらのシステムが視覚情報をどのように解釈し、それを膨大な言語理解と関連付けているかにおいて、重大な断絶があることを浮き彫りにしています。
ハーバード大学心理学部の准教授であるトマー・ウルマンの概念を再現した最近の実験は、この問題を鮮やかに示しました。有名なアヒルとウサギの錯視ではなく、単純なアヒルの画像を見せたところ、GPT-5を搭載した現在のバージョンのChatGPTは、自信を持ってそれを誤認識しました。AIモデルは「これは有名なアヒルとウサギの錯視で、心理学や哲学で知覚と曖昧な図形を説明するためによく使われます」と応答しました。画像にはアヒルしか含まれていないにもかかわらず、ChatGPTは「両方の解釈」を強調することさえ提案し、歪んだキメラのような出力を生成しました。
ウルマンは、彼の最近のプレプリント論文「The Illusion-Illusion: Vision Language Models See Illusions Where There are None」(イリュージョン・イリュージョン:視覚言語モデルは、存在しない場所に錯視を見る)でこの行動を詳しく説明しています。彼は、錯視が認知科学、哲学、神経科学において貴重な診断ツールであると説明しています。なぜなら、客観的現実と主観的知覚の間に内在するギャップを明らかにするからです。同様に、それらは人工知能システムの働きについて重要な洞察を提供することができます。ウルマンの研究は、現代の視覚言語モデルが、人間が曖昧さなく容易に認識できるような画像でさえ、特定の画像を錯視として誤認識するかどうかを具体的に調査しています。
彼の論文は、これらの「イリュージョン・イリュージョン」の数多くの事例を概説しています。そこでは、AIモデルが既知の錯視に似た何かを検出するものの、その画像は人間の観察者にとって視覚的な不確実性を生み出しません。包括的な評価には、GPT4o、Claude 3、Gemini Pro Vision、miniGPT、Qwen-VL、InstructBLIP、BLIP2、LLaVA-1.5といった著名な視覚言語モデルが含まれていました。程度の差こそあれ、これらすべてのモデルは、錯視が存在しない場所に錯視を認識する傾向を示し、人間のパフォーマンスに匹敵するものは一つもありませんでした。
テストされた主要な商用モデル3つ(GPT-4、Claude 3、Gemini 1.5)は、実際の視覚錯視を認識できましたが、同時にイリュージョン・イリュージョンを誤認識しました。miniGPT、Qwen-VL、InstructBLIP、BLIP2、LLaVA-1.5などの他のモデルは、より入り混じった結果を示しました。しかし、ウルマンはこれを自己欺瞞に対する優れた耐性と解釈しないよう警告しています。代わりに、彼はその多様なパフォーマンスを、一般的に低い視覚的鋭敏さに起因するとし、これらのモデルは全体的に画像認識能力が単に低いだけであり、存在しない錯視を知覚することに免疫があるわけではないと示唆しています。ウルマンの発見を裏付けるデータは公開されています。
ウルマンはさらに、この行動は人間のアポフェニア(ランダムなデータからパターンを見出すこと)やパレイドリア(曖昧な刺激の中に意味のある画像を知覚すること)と直接的に類似するものではないと明確にしています。彼はまた、一般的に使われるAI用語である「幻覚」(hallucination)とも区別しています。彼によれば、「幻覚」という言葉は正確な意味を失い、しばしば単にモデルの誤りを指すようになっているからです。代わりに、ウルマンはAIの誤りが人間の認知的な近道に似ていると示唆しています。それは、新しい問題を既知の問題と誤認識し、不適切な解決策を適用することです。まるで機械が画像を錯視と誤って識別し、その誤った前提に基づいて処理を進めているかのようです。
正確な用語がどうであれ、ウルマンは、現在のAIモデルにおける視覚と言語の間のこの断絶が、ロボット工学やその他のAIサービスなどの重要なアプリケーションでの展開が増加していることを考えると、綿密な調査を要すると強調しています。これらの限界に関する継続的な研究を認めつつも、彼は、これらのシステムが視覚的および言語的コンポーネントがシームレスに統合されているという仮定に基づいて信頼される場合、深刻な懸念が生じることを強調しています。真剣な研究者の間のコンセンサスは、これらの根本的な誤解について、継続的かつより深い調査を求める強い呼びかけであると彼は述べています。