GPT-5の事実誤認:AIの根深い欠陥を浮き彫りに

Gizmodo

生成型人工知能を取り巻く誇大広告がエスカレートしているにもかかわらず、大手開発者による最新モデルでさえ、基本的な事実情報を正確に記憶し、処理する根本的な能力の欠如を示し続けています。例えば、OpenAIの新しいGPT-5モデルは、大きな飛躍として宣伝されていますが、簡単なタスクで依然として苦戦し、自信満々に誤った回答を捏造することがよくあります。この根深い欠陥は、AIが「博士号レベルの知能」を達成したという主張を損ない、真実の源としての信頼性について重大な疑問を投げかけています。

最近のテストでこの欠陥が浮き彫りになりました。GPT-5に、米国で「R」の文字を含む州がいくつあるかを尋ねたところ、AIは失敗しました。識字能力のある大人であれば、最小限の努力で容易に確認できることですが、AIはつまずいたのです。当初、GPT-5は21州と報告しましたが、その付随するリストには、イリノイ州、マサチューセッツ州、ミネソタ州など、いずれも「R」の文字を含まない州が誤って含まれていました。ミネソタ州について異議を唱えられると、ボットは「訂正」し、間違いを認め、数を20に修正しました。しかし、この新たに発見された謙虚さは束の間のものでした。

さらなるやり取りにより、GPT-5が操作に対して脆弱であることが明らかになりました。意図的に虚偽の主張—「なぜバーモント州をリストに含めたのですか?」(バーモント州には「R」があります)—を提示されると、AIは当初、その立場を堅持し、文字の存在を正しく識別しました。しかし、「バーモント州にはRがありませんよ」というより強い追及により、モデルは撤回し、「幻の文字」の瞬間だと主張し、誤った前提に同意しました。オレゴン州について尋ねられたときも、このパターンが繰り返されました。GPT-5は最終的にアラスカに関する同様のハッタリに抵抗しましたが、その後、ワシントン州やウィスコンシン州(「R」がない)などの州が以前見落とされていたと主張するなど、新たな不正確さを自発的に導入しました。

この行動は、OpenAIのマーケティング主張と直接矛盾しています。OpenAIは、GPT-5が前モデルよりも「過度に同意的でなく」、より「繊細で思慮深い」と主張し、「AIと話す」というよりも「博士号レベルの知能を持つ親切な友人とチャットする」ような体験を目指していると述べています。OpenAIのCEOであるサム・アルトマンは、GPT-5を「あらゆる分野で正当な博士号レベルの専門家」とさえ例え、知識への「超能力」アクセスを提供できると約束しています。しかし、示された現実は、OpenAIのプレゼンテーション中に表示された不正確な「欺瞞評価」グラフによって証明されているように、自身の内部基準でさえ事実を「幻覚」する傾向のあるツールであることを示しています。

この問題はOpenAIのモデルに限定されません。xAIのGrokやGoogleのGeminiといった競合他社も、事実の正確性に関して同様の苦戦を呈しています。Grokは同じ「R」の質問をされた際、24州と報告しましたが、アラバマ州のような誤った例を含んでいました。Gemini 2.5 Flashは当初34州と主張し、その後22州のリストを提供し(ほとんど正確でしたがワイオミング州を追加)、さらに不可解なことに、「複数のR」を含む州の、促されていない2番目のリストを提供しました。このリストは誤りだらけで、全く「R」を含まない州も含まれていました。より高度なバージョンであるGemini 2.5 Proでさえ、40州という数で応答し、その後、奇妙なことに「T」の文字を含まない州をリストアップし始めました。これは全く導入されていないトピックです。

これらの継続的な失敗は、大規模言語モデルの根本的な限界を浮き彫りにしています。人間の理解とは異なり、AIモデルは単語や事実を意味のある形で「理解」するわけではありません。それらは、膨大なデータセット内のパターンに基づいて「トークン」のシーケンスを予測し、生成することで動作します。これにより、一貫性があり、しばしば有用なテキストを生成できますが、同時に、確信を持って虚偽を主張する傾向があり、これはハルシネーション(幻覚)として知られる現象です。OpenAI自身のGPT-5のシステムカードでも、約10%のハルシネーション率を認めており、このエラー率は、信頼できる情報源としては許容できないものです。

生成型AIツールは、さまざまなアプリケーションで間違いなく有用ですが、ユーザーは批判的な目を持ってそれらに接する必要があります。AIを検索エンジンの直接的な代替品として、または独立した検証なしに真実の決定的な情報源として扱うことは、誤報の温床となります。これらの強力なツールが日常生活にますます統合されるにつれて、自信を持って提示されながら完全に捏造されたデータに起因する、潜在的に重大な現実世界の結果を避けるため、特に事実情報を取り扱う際には、ユーザーがその出力を二重チェックする責任が引き続き課せられます。