歴史テストでAIが惨敗：歴史家がロボットに職を奪われない理由

人工知能に関する最近の議論では、AIが人間の仕事を完全に置き換えることはないにしても、間もなく強化するだろうと示唆されることが多い。例えば、最近のマイクロソフトの研究では、AIによって最も強化される可能性のある職業として、歴史家が挑発的に2位にランク付けされた。この予測は、当然ながら歴史学界内で懸念を引き起こした。しかし、主要な生成AIツールを特定の歴史的事実で広範に個人的にテストした結果、歴史家がすぐに時代遅れになることを恐れる必要はないことが明らかになった。現状では、AIは彼らの複雑な仕事を効果的に遂行するには程遠い。

私が米国大統領が在任中に観た映画への魅了が、これらのAIシステムにとって理想的なテストベッドとなった。2012年以来、私はこのニッチな分野を丹念に調査しており、セオドア・ルーズベルトが1908年に観た鳥のドキュメンタリーから、より最近の政権までを網羅している。私の旅は、ロナルド・レーガンのホワイトハウスの映画リストを発見したことから始まり、それがバラク・オバマの視聴習慣に関する情報公開法（FOIA）の要求へとつながった。この要求により、大統領の記録は退任後5年間はFOIAの対象外であることが明らかになった。これにひるむことなく、私はその後、膨大な数の情報源を深く掘り下げ、詳細ではあるが珍しい歴史データベースを構築した。私がよく知っている情報でAIをテストすることで、その精度を評価することができた。これは、通常、これらのツールについて知らない主題を尋ねるユーザーが見落としがちな重要なステップである。AIチャットボットに正確な情報を頼る人にとっては、その結果は非常に示唆に富むものだった。

私の最初の試みは、OpenAIの主力モデル、GPT-5とされていたものを含め、ウッドロー・ウィルソン、ドワイト・アイゼンハワー、リチャード・ニクソン、そして2人のジョージ・ブッシュといった大統領が特定の日に観た映画について尋ねるものだった。OpenAIの回答は一貫して役に立たず、記録が見つからないと述べたり、場合によっては情報を捏造したりした。幸いにも完全に捏造することはなかったが、これらのモデルは比較的簡単な質問にすら答えることができなかった。どのモデルが裏で動作しているかに関する透明性の欠如、そして正確な歴史的詳細を提供できないという一般的な能力不足は、CEOサム・アルトマンが以前に「博士号レベルの専門家」能力を約束していたにもかかわらず、重大な弱点を浮き彫りにした。

欠点はOpenAIに限ったことではなかった。Google Gemini、Microsoft Copilot、Perplexity、xAIのGrokなど、他の主要なAIチャットボットもかなりの不正確さを示した。例えば、1954年8月11日にアイゼンハワー大統領が観た映画を尋ねたところ、Copilotの「クイックレスポンス」は誤って『不屈の人々』を挙げた。これはアイゼンハワーが短く登場するドキュメンタリーである。Copilotの「ディープリサーチ」モードに切り替えると、3,500語にも及ぶ長大なレポートが生成され、アイゼンハワーが「おそらく」『突然』を観たであろうと推測された。しかし、この映画は問い合わせた日付から数ヶ月後にしか公開されていない。Copilotの「分析」は「状況証拠と二次的証拠」を引用したが、この文脈では純粋な推測に過ぎなかった。なぜなら、ホワイトハウスの映写技師のログブックで確認されている正しい答え—『帰らざる河』—は完全に抜け落ちていたからだ。Geminiは答えを提示せず、Perplexityも誤って『突然』と推測した。これは、映画のインスピレーションに関する興味深い事実によって誤解されたようだった。

他の大統領に関する問い合わせでも同様の誤りのパターンが見られた。1971年2月12日のリチャード・ニクソンの視聴習慣について尋ねたところ、Copilotの「クイックレスポンス」は、彼がキー・ビスケーンで『パットン』を観たと主張し、国家公文書館のリンクを引用したが、確認するとそのような情報は含まれていなかった。Copilotの「ディープリサーチ」は最終的に『大追跡』を正しく特定したが、同時にニクソンが他の日に『パットン』を観たという新たな虚偽の主張を導入した。Perplexityは誤って『続・夕陽のガンマン』を提案し、日付を1年後の視聴記録と混同した。

より曖昧な事実になると、課題はさらに深刻になった。例えば、ウッドロー・ウィルソンは1917年3月6日に無声映画『危機』を観たが、これは私が個人的に入手し、公開されていなかったためオンラインにアップロードしたものである。ほとんどのAIモデルは、答えが出せないか、または誤って『國民の創生』を挙げた。これはウィルソンがホワイトハウスで観た最も有名な映画だが、はるかに以前の作品である。ChatGPTはさらに、タフトやセオドア・ルーズベルトによる以前の視聴を無視し、『國民の創生』がホワイトハウスで上映された最初の映画であると誤って主張した。

AIが正しい答えを提供できた場合でも、その推論や情報源にはしばしば疑問符がつくものだった。例えば、xAIのGrokは「もっとよく考えろ」と促された後、最終的にアイゼンハワーの『帰らざる河』を正しく特定したが、その情報源は私自身の無名のTwitterアカウントであり、直接的な引用が欠けていた。これは、Grokが容易に入手でき、しばしば未検証のインターネットデータに依存していることを示している。同様に、Grokが2003年9月10日のジョージ・W・ブッシュによる短編ドキュメンタリー『ツインタワー』の視聴を正しく特定した際、それは私が以前に要求したFOIA文書を引用しており、新しい調査を行うのではなく、実質的に私自身のこれまでの研究を統合していた。

これらのテストは、学術的な意味での科学的ではないものの、正確な歴史研究におけるAIの実用的な有用性を評価するために設計された。それらは、AI企業が推論能力の向上と「幻覚」の減少を誇る一方で、特定の、ニュアンスのある情報に対する現実世界での性能は依然として深く欠陥があることを示している。生成AIツールは万能な知識エンジンとして売り出されているが、広くデジタル化されていない、または一般的なインターネットソースから容易に統合できない情報に直面すると、常にその「高い要求」を満たすことができない。

歴史家の役割は、単に公表された事実をまとめることにとどまらない。真の歴史研究には、アーカイブで入手困難な文書を発掘し、一次証人や専門家へのインタビューを実施し、矛盾する情報源を批判的に評価し、最終的には過去に新たな解釈と理解を貢献することが含まれる。私のテストは、特定の日付と映画のタイトルにのみ焦点を当てており、歴史家が行うことのごく一部に過ぎない。

AIツールが数え切れないほどのタスクに役立つことは疑いないが、その全能性に対する広範な信念を和らげることが重要である。自分がよく知っている事実で、これらの「神のような」ツールに定期的に挑戦することは、その限界を思い起こさせる重要な役割を果たす。批判的な人間の監督なしにAIに過度に依存することは、無知を助長するだけでなく、正確な知識の追求そのものを損なうリスクがある。

歴史テストでAIが惨敗：歴史家がロボットに職を奪われない理由

関連記事

Agentic RAG：生成AIが実現する高精度と信頼への次なる飛躍

Agentic AIがIT運用を変革：リアルタイムの自己管理で新たな時代へ

実践的AI製品開発：ユーザーの採用と信頼を得るための教訓