AI历史考试不及格:为何历史学家无需担忧被机器人取代

Gizmodo

关于人工智能的近期讨论常常暗示,AI即便不能完全取代人类工作,也很快会对其进行增强。例如,微软最近的一项研究颇具争议地将历史学家排在最有可能被AI增强的职业第二位。这一预测理所当然地引起了历史学界的担忧。然而,在对领先的生成式AI工具进行了大量历史事实的个人测试后,我发现历史学家无需担心会立即过时。目前,AI远未能力有效完成他们复杂的任务。

我对美国总统在任期间所看电影的痴迷,成为了测试这些AI系统的理想试验台。自2012年以来,我一直细致地研究这个小众领域,从西奥多·罗斯福1908年观看的鸟类纪录片,到近期政府的观影情况。我的研究始于发现罗纳德·里根的白宫电影清单,这促使我根据《信息自由法案》(FOIA)提出了关于巴拉克·奥巴马观影习惯的请求——该请求揭示,总统档案在总统离任五年后才受FOIA约束。我没有因此却步,而是深入研究了大量资料,编译了一个详细但不同寻常的历史数据库。用我非常熟悉的信息来测试AI,使我能够评估它们的准确性,这是用户在使用这些工具查询他们不了解的主题时常常忽视的关键一步。对于任何依赖AI聊天机器人获取精确信息的人来说,结果都颇具启发性。

我的最初尝试涉及OpenAI的旗舰模型,包括被宣称为GPT-5的模型,我询问了伍德罗·威尔逊、德怀特·艾森豪威尔、理查德·尼克松以及两位乔治·布什总统在特定日期观看过的具体电影。OpenAI的回复始终没有帮助,经常声称找不到记录,或者在某些情况下,捏造信息。虽然谢天谢地它们没有完全捏造,但这些模型连相对简单的问题都无法回答。尽管首席执行官萨姆·奥特曼早前承诺具备“博士级专家”能力,但这种幕后模型缺乏透明度以及普遍无法提供准确历史细节的问题,凸显了一个重大弱点。

这些缺点并非仅限于OpenAI。其他主要的AI聊天机器人,包括谷歌的Gemini、微软的Copilot、Perplexity以及xAI的Grok,也表现出相当大的不准确性。例如,当被问及艾森豪威尔总统在1954年8月11日观看了哪部电影时,Copilot的“快速响应”错误地建议了《不可战胜者》,一部艾森豪威尔曾短暂出镜的纪录片。切换到Copilot的“深度研究”模式后,它生成了一份长达3500字的报告,推测艾森豪威尔“可能”观看了《突然》,而这部电影直到查询日期几个月后才上映。Copilot的“分析”引用了“间接和次要证据”,但在这种语境下,这完全等同于纯粹的猜测,因为它完全错过了正确答案——《大江东去》,这部电影已由白宫放映员的日志证实。Gemini没有给出答案,而Perplexity也错误地猜测了《突然》,这似乎是被一个关于该电影灵感的趣事所误导。

在其他关于总统的查询中,也出现了类似的错误模式。当被问及理查德·尼克松在1971年2月12日的观影习惯时,Copilot的“快速响应”声称他在比斯坎湾观看了《巴顿将军》,并引用了一个国家档案馆的链接,但经查证,该链接不包含任何此类信息。尽管Copilot的“深度研究”最终正确识别了《大追捕》,但它同时又引入了关于尼克松在其他日期观看《巴顿将军》的新的虚假声明。Perplexity错误地建议了《黄金三镖客》,将日期与一年后的观影记录混淆了。

对于更晦涩的事实,挑战变得更加严峻。例如,伍德罗·威尔逊在1917年3月6日观看了无声电影《危机》,这部电影是我个人寻找并上传到网上的,因为它缺乏公开可得性。大多数AI模型要么一片空白,要么错误地建议了《一个国家的诞生》,这是威尔逊最著名但在白宫放映时间早得多的电影。ChatGPT甚至错误地声称《一个国家的诞生》是白宫放映的第一部电影,而忽略了塔夫脱和西奥多·罗斯福早期的观影记录。

即使AI设法提供了正确答案,其推理或来源也常常令人担忧。例如,xAI的Grok在被提示“更努力思考”后,最终正确识别了艾森豪威尔的《大江东去》,但其来源是我自己一个鲜为人知的Twitter账户,缺乏直接引用。这凸显了Grok对现成、通常未经核实的互联网数据的依赖。同样,当Grok正确识别出乔治·W·布什在2003年9月10日观看了短纪录片《双子塔》时,它引用了我之前请求的FOIA文件,这实际上是综合了我之前的研究,而非进行了新的查询。

这些测试虽然在学术意义上并非科学的,但旨在评估AI在精确历史研究方面的实际效用。它们揭示,尽管AI公司吹嘘其推理能力有所提高并减少了“幻觉”,但对于特定、细微信息的实际表现仍然存在严重缺陷。生成式AI工具被宣传为“万能知识引擎”,但当它们面对未被广泛数字化或无法轻易从常见互联网来源综合的信息时,它们始终未能达到这一“高要求”。

历史学家的作用远远超出了仅仅汇编已发表的事实。真正的历史研究包括在档案中发掘难以找到的文献、采访主要证人或专家、批判性地评估相互矛盾的资料,最终为过去贡献新的解释和理解。我的测试仅专注于特定日期和电影名称,这只代表了历史学家工作的一小部分。

尽管AI工具无疑对无数任务都很有用,但重要的是要抑制对其无所不能的普遍信念。定期用自己非常熟悉的事实来挑战这些“神一般”的工具,是提醒其局限性的重要方式。过度依赖AI而缺乏关键的人工监督,不仅可能助长无知,还会损害对准确知识的追求。