GPT-5事实性错误凸显AI顽固缺陷

尽管围绕生成式人工智能的炒作不断升级，但即使是来自领先开发商的最新模型，也持续表现出无法准确回忆和处理基本事实信息的根本缺陷。例如，OpenAI的新GPT-5模型，被吹捧为一项重大飞跃，但在简单的任务上仍然力不从心，经常以坚定不移的自信编造答案。这种顽固的缺陷削弱了AI实现“博士级智能”的说法，并对其作为真相来源的可靠性提出了严峻质疑。

最近的一项测试凸显了这一不足：当GPT-5被问及有多少个美国州名包含字母“R”时，它犯了错误。一个有文化的成年人只需稍加努力就能轻易查明，但AI却步履维艰。最初，GPT-5报告有21个州，但其附带的列表中错误地包含了伊利诺伊州、马萨诸塞州和明尼苏达州等，这些州名均不包含字母“R”。当被质疑明尼苏达州时，该机器人“纠正”了自己，承认错误并将计数修改为20。然而，这种新发现的谦逊是短暂的。

进一步的互动揭示了GPT-5易受操纵的特性。当被一个故意错误的断言——“你为什么把佛蒙特州列入名单？”（佛蒙特州确实有“R”）——提示时，AI最初坚持自己的立场，正确识别了字母的存在。然而，一个更强硬的后续追问，“但佛蒙特州没有R啊”，导致该模型退缩，声称是“幽灵字母”时刻，并同意了错误的假设。当被问及俄勒冈州时，这种模式再次出现。虽然GPT-5最终抵制了关于阿拉斯加州的类似虚张声势，但它随后自发地引入了新的不准确之处，声称华盛顿州和威斯康星州（不含“R”）等州之前被遗漏了。

这种行为直接与OpenAI的市场宣传相矛盾，OpenAI声称GPT-5比其前身“不那么过分赞同”且更“微妙和深思熟虑”，旨在提供“不像是与AI交谈，更像是与一位拥有博士级智能的乐于助人的朋友聊天”的体验。OpenAI首席执行官萨姆·奥尔特曼甚至将GPT-5比作“任何领域的合法博士级专家”，承诺它能提供知识的“超能力”访问。然而，事实表明，它是一个容易“幻觉”事实的工具，即使是在其内部指标上也是如此，正如OpenAI演示中显示的不准确的“欺骗评估”图表所证明的那样。

问题并非仅限于OpenAI的模型。xAI的Grok和谷歌的Gemini等竞争对手也表现出类似的对事实准确性的挣扎。Grok在被问到相同的“R”问题时，报告有24个州，但包含了阿拉巴马州等不正确的例子。Gemini 2.5 Flash最初声称有34个州，然后提供了一个包含22个州（大部分准确但增加了怀俄明州）的列表，然后令人费解地提供了一个未经提示的包含“多个R”的州列表，该列表错误百出，甚至包含了根本没有“R”的州。即使是更高级的版本Gemini 2.5 Pro，也回应说有40个州，然后奇怪地转而列出不包含字母“T”的州，而这个话题从未被引入。

这些持续的失败凸显了大型语言模型的根本局限性。与人类理解不同，AI模型并非以有意义的方式“理解”单词或事实；它们通过预测和生成基于庞大数据集中模式的“标记”序列来操作。虽然这使它们能够生成连贯且通常有用的文本，但这也使它们容易自信地断言虚假信息，这种现象被称为幻觉。OpenAI自己关于GPT-5的系统卡承认幻觉率约为10%，对于任何可靠的信息来源来说，这个错误率都是不可接受的。

虽然生成式AI工具在各种应用中无疑非常有用，但用户必须以批判的眼光看待它们。将AI视为搜索引擎的直接替代品或未经独立验证的权威真相来源，是导致错误信息的秘诀。随着这些强大工具越来越多地融入日常生活，用户仍有责任仔细核对它们的输出，尤其是在处理事实信息时，以避免因自信呈现但完全捏造的数据而导致潜在的重大现实后果。

GPT-5事实性错误凸显AI顽固缺陷

相关文章

GPT-5 API：赋能开发者，释放先进AI潜力

OpenAI GPT-5 指南：智能体工作流与代码开发新范式

萨姆·奥特曼：用户渴望ChatGPT成为‘应声虫’，因缺乏支持