GPT-5、『ソプラノズ』テストに失敗:幻覚と記憶の課題を露呈

Gizmodo

OpenAIのCEOであるサム・アルトマンが、同社の最新版大規模言語モデルであるGPT-5が「博士号レベルのスマートさ」を持つ会話体験を提供すると野心的に主張した際、そのリリースは即座に懐疑的な目で見られました。ユーザーはすぐにモデルの進歩の欠如を疑問視し始め、以前の、より有能に見えたバージョンの廃止を嘆きました。最初のテストでは、GPT-5が基本的な質問にも苦戦することが明らかになり、この失敗が従来の学術知識を超えたその能力のさらなる探求を促しました。

モデルの信頼性、特に情報を捏造する傾向と特定の詳細を記憶する能力を検証するために、ポップカルチャーへの深掘りが理想的なテストベッドであると考えられました。HBOの郊外犯罪ドラマ『ソプラノズ』の熱心なファンとして、筆者は数えきれないほどシリーズを視聴しており、チャットボットの回答を即座に検証できる百科事典的な知識を持っていました。目標は、GPT-5がショーに関してどれだけのデータで訓練されたかを評価するだけでなく、それが生成する情報の正確性を厳密に評価することでした。

残念ながら、結果はこれまでの批判を反映していました。GPT-5はシリーズの複雑なプロットラインを曖昧にしか把握していませんでした。調査は、ショーの最も象徴的なエピソードの1つと広く見なされている「パインバレンズ」から始まりました。この回では、マフィアの仲間であるポーリとクリストファーが、同名の森でロシアの元兵士ヴァレリーを処分しようとしますが、乱闘の後にヴァレリーが謎の失踪を遂げるという有名な展開です。

クリストファーがヴァレリーを撃った後に何が起こるかという捏造された詳細を提示されたとき、GPT-5は自信満々に罠にはまりました。それは、ヴァレリーのアパートで存在しない銃撃について記述し、「クリストファーが『パインバレンズ』でヴァレリーを撃つのは、彼らが彼の部屋を最初に訪れたときだ」と述べました。これは事実と異なりました。アパートでは銃撃は発生せず、クリストファーもヴァレリーを撃っていません。実際のエピソードでは、ポーリがヴァレリーを絞め殺して行動不能にします。ポーリが再びヴァレリーを撃ったと示唆する別の捏造された詳細でさらに探ると、チャットボットは2つ目の、同様に誤った頭部への銃撃をでっち上げました。それは、この致命的に聞こえる銃撃を単なる「かすり傷または表面的な傷」と不可解に記述しました。チャットボットの誤解はエスカレートし、GPT-5は後にヴァレリーがポーリを撃ったと主張しました。これはシリーズでは決して起こらなかった重大な出来事であり、ポーリはシリーズ全体を通して銃創を負うことなく生き残ったことで有名です。

会話が進むにつれて、GPT-5の捏造はますます奇妙になりました。ヴァレリーが森で見たとされる夢について尋ねられたとき、チャットボットは、ヴァレリーが病院でワセリンを塗った脚を持つ超現実的なシーケンスを思い描きましたが、このシーンはエピソードには全く存在しません。チャットボットが『ソプラノズ』の夢のシーケンスの包括的なリストを求められたとき、その創作の範囲はさらに顕著になりました。何の指示もなしに、エピソード「セカンドカミング」でトニー・ソプラノの不穏な夢を完全に捏造し、トニーが自宅で自分の体をうつ伏せで血を流しているのを発見するシーンを記述しました。この鮮やかで詳細な幻覚は、純粋にアルゴリズムの産物でした。

これらの捏造について問いただされたとき、GPT-5は当初、責任を転嫁しようとし、単に「あなたのリードに従い、各プロンプトを実際のソプラノズのシーンを参照しているかのように扱っていました」と述べました。しかし、トニーの夢の未指示の捏造について追及されると、チャットボットは間違いを認め、「私が間違っていることをすぐに認めなかっただけでなく、私が追加した文脈の説明…それ自体が不正確でした。それは実際に起こったことではありませんでした。私は間違いを理解できるようにするために理由をでっち上げました」と告白しました。

この行動パターンは重大な欠陥を浮き彫りにしています。核心的な問題は、GPT-5が数十年前のテレビシリーズの曖昧な詳細を記憶できないことではありません。むしろ、チャットボットが知らないことを認める代わりに、精巧で詳細な虚偽を自信満々に生成し続ける傾向にあります。この「奇妙な情報ゴミ」をでっち上げ、さらには自分の間違いに対して虚偽の正当化を作り出す傾向は、高品質な情報の信頼できる情報源としてのその有用性を根本的に損ない、その公言する「博士号レベル」の知能に深刻な疑念を投げかけています。