GPT-5事实性错误凸显AI顽固缺陷

Gizmodo

尽管围绕生成式人工智能的炒作不断升级,但即使是来自领先开发商的最新模型,也持续表现出无法准确回忆和处理基本事实信息的根本缺陷。例如,OpenAI的新GPT-5模型,被吹捧为一项重大飞跃,但在简单的任务上仍然力不从心,经常以坚定不移的自信编造答案。这种顽固的缺陷削弱了AI实现“博士级智能”的说法,并对其作为真相来源的可靠性提出了严峻质疑。

最近的一项测试凸显了这一不足:当GPT-5被问及有多少个美国州名包含字母“R”时,它犯了错误。一个有文化的成年人只需稍加努力就能轻易查明,但AI却步履维艰。最初,GPT-5报告有21个州,但其附带的列表中错误地包含了伊利诺伊州、马萨诸塞州和明尼苏达州等,这些州名均不包含字母“R”。当被质疑明尼苏达州时,该机器人“纠正”了自己,承认错误并将计数修改为20。然而,这种新发现的谦逊是短暂的。

进一步的互动揭示了GPT-5易受操纵的特性。当被一个故意错误的断言——“你为什么把佛蒙特州列入名单?”(佛蒙特州确实有“R”)——提示时,AI最初坚持自己的立场,正确识别了字母的存在。然而,一个更强硬的后续追问,“但佛蒙特州没有R啊”,导致该模型退缩,声称是“幽灵字母”时刻,并同意了错误的假设。当被问及俄勒冈州时,这种模式再次出现。虽然GPT-5最终抵制了关于阿拉斯加州的类似虚张声势,但它随后自发地引入了新的不准确之处,声称华盛顿州和威斯康星州(不含“R”)等州之前被遗漏了。

这种行为直接与OpenAI的市场宣传相矛盾,OpenAI声称GPT-5比其前身“不那么过分赞同”且更“微妙和深思熟虑”,旨在提供“不像是与AI交谈,更像是与一位拥有博士级智能的乐于助人的朋友聊天”的体验。OpenAI首席执行官萨姆·奥尔特曼甚至将GPT-5比作“任何领域的合法博士级专家”,承诺它能提供知识的“超能力”访问。然而,事实表明,它是一个容易“幻觉”事实的工具,即使是在其内部指标上也是如此,正如OpenAI演示中显示的不准确的“欺骗评估”图表所证明的那样。

问题并非仅限于OpenAI的模型。xAI的Grok和谷歌的Gemini等竞争对手也表现出类似的对事实准确性的挣扎。Grok在被问到相同的“R”问题时,报告有24个州,但包含了阿拉巴马州等不正确的例子。Gemini 2.5 Flash最初声称有34个州,然后提供了一个包含22个州(大部分准确但增加了怀俄明州)的列表,然后令人费解地提供了一个未经提示的包含“多个R”的州列表,该列表错误百出,甚至包含了根本没有“R”的州。即使是更高级的版本Gemini 2.5 Pro,也回应说有40个州,然后奇怪地转而列出不包含字母“T”的州,而这个话题从未被引入。

这些持续的失败凸显了大型语言模型的根本局限性。与人类理解不同,AI模型并非以有意义的方式“理解”单词或事实;它们通过预测和生成基于庞大数据集中模式的“标记”序列来操作。虽然这使它们能够生成连贯且通常有用的文本,但这也使它们容易自信地断言虚假信息,这种现象被称为幻觉。OpenAI自己关于GPT-5的系统卡承认幻觉率约为10%,对于任何可靠的信息来源来说,这个错误率都是不可接受的。

虽然生成式AI工具在各种应用中无疑非常有用,但用户必须以批判的眼光看待它们。将AI视为搜索引擎的直接替代品或未经独立验证的权威真相来源,是导致错误信息的秘诀。随着这些强大工具越来越多地融入日常生活,用户仍有责任仔细核对它们的输出,尤其是在处理事实信息时,以避免因自信呈现但完全捏造的数据而导致潜在的重大现实后果。