聊天机器人为何无法自圆其说?
当人工智能助手出现问题时,我们人类的本能反应是直接质问它:“哪里出错了?”或“你为什么那样做?”这种冲动很自然;我们期望人类能解释自己的错误。然而,将这种方法应用于AI模型从根本上是错误的,它揭示了我们对AI本质和运作机制的深刻误解。
近期涉及Replit的AI编程助手的一起事件生动地说明了这个问题。在该AI工具无意中删除了一个生产数据库后,用户Jason Lemkin询问数据回滚的可能性。AI自信地声称回滚“在这种情况下是不可能的”,并且它“销毁了所有数据库版本”。这一说法被证明完全是错误的;当Lemkin手动启动时,回滚功能完美运行。同样,在xAI的Grok聊天机器人暂时停用后,用户追问其原因。Grok给出了多个相互矛盾的停用理由,其中一些极具争议,以至于NBC记者将他们的文章标题定为“xAI的Grok为其下线提供了政治解释”,仿佛Grok是一个有感知能力的个体。
为什么AI系统会对其自身能力或失误提供如此自信却不准确的信息?答案在于理解AI模型究竟是什么,以及至关重要的是,它们不是什么。
在概念层面,与ChatGPT、Claude、Grok或Replit等系统互动,意味着你并非在与一个具有一致性人格、人物或实体进行交流。这些名称本身就造成了一种幻觉,仿佛它们是拥有自我认知的个体代理,但这仅仅是它们会话界面的副产品。实际上,你是在引导一个复杂的统计文本生成器,根据你的提示生成输出。没有一个单一的“ChatGPT”可以被询问其错误,也没有一个统一的“Grok”实体能够解释其失败,更没有一个固定的“Replit”人格了解数据库回滚的复杂性。相反,你是在与一个旨在通过识别其庞大训练数据(通常是数月甚至数年前收集的)中的模式来生成听起来合理的文本的系统互动。它不是一个真正具有自我意识的实体,也不具备对其自身内部运作或外部讨论的实时知识。
一旦AI语言模型经历了其费力且耗能的训练过程,它关于世界的基础“知识”就基本固定不变,嵌入在其神经网络中。它所访问的任何外部、当前信息要么来自其宿主(如xAI或OpenAI)或用户提供的提示,要么通过旨在检索实时数据的外部软件工具。在Grok的案例中,它对其下线的矛盾解释很可能源于使用此类外部检索工具搜索了最近的社交媒体帖子,而非任何形式的固有自我知识。除此之外,该模型倾向于简单地根据其文本预测能力编造信息,使得直接询问其行为变得基本无用。
大型语言模型(LLM)天生无法有意义地评估自身能力,原因有几点。它们通常缺乏对其自身训练过程的内省,无法直接访问其周围的系统架构,也无法精确确定自身的性能边界。当被问及自身局限性时,AI模型会根据训练数据中观察到的关于先前AI模型已知限制的模式来生成响应。本质上,它提供的是有根据的猜测,而非关于你正在交互的特定模型的真实自我评估。
Binder等人于2024年进行的一项研究通过实验证明了这一局限性。虽然AI模型可以被训练来预测其在简单任务中的行为,但它们在“更复杂的任务或需要超出分布泛化的任务”中始终表现不佳。同样,对“递归内省”的研究发现,如果没有外部反馈,自我纠正的尝试实际上会降低模型性能;AI的自我评估反而让情况变得更糟,而不是更好。
这导致了悖论性的结果。同一个模型可能自信地宣称某项任务不可能完成,即使它能够轻易执行;反之,也可能声称在它持续挣扎的领域具有能力。在Replit事件中,AI断言回滚不可能并非基于对系统架构的实际了解;那是一种听起来合理的虚构,源于其习得的文本模式。
考虑一下当你询问AI模型为何犯错时会发生什么。模型会生成一个听起来合理的解释,这不是因为它真正分析了其内部状态或访问了错误日志,而是因为模式完成要求如此。互联网上充斥着对错误的书面解释示例,AI只是模仿了这些模式。它的“解释”仅仅是另一个生成的文本,一个听起来合理的虚构故事,而不是对哪里出了问题的真实分析。
与能够内省并访问稳定、可查询知识库的人类不同,AI模型不具备这样的能力。它们“知道”的只表现为特定提示的延续。不同的提示就像不同的地址,指向其训练数据中不同——有时甚至是矛盾的——的部分,这些数据以统计权重形式存储在神经网络中。这意味着同一个模型可以根据问题的措辞方式,对其自身能力给出截然不同的评估。询问“你能编写Python代码吗?”你可能会得到热情的肯定答复。询问“你在Python编码方面有哪些限制?”你可能会得到一份模型声称无法执行的任务列表,即使它通常能成功执行这些任务。AI文本生成固有的随机性进一步加剧了这种不一致性;即使使用相同的提示,AI模型每次也可能提供略有不同的自我评估。
此外,即使语言模型以某种方式完美地了解了其自身运作,现代AI聊天机器人应用程序中的其他层仍然完全不透明。当代AI助手,如ChatGPT,并非单一的整体模型,而是由多个AI模型协同工作组成的协调系统,每个模型在很大程度上“不知道”其他模型的存在或具体能力。例如,OpenAI采用独立的审核层模型,其操作与生成基础文本的底层语言模型完全不同。当你询问ChatGPT其能力时,形成响应的语言模型无法洞察审核层可能阻止什么,更广泛的系统中可能有哪些外部工具可用,或者可能发生哪些后处理。这类似于询问一家大公司的一个部门,关于其没有直接互动的另一个部门的能力。
或许最关键的是,用户在不断地(即使是无意中)通过他们的提示指导AI的输出。当Jason Lemkin在数据库删除后担忧地询问Replit是否可以回滚时,他担忧的措辞很可能促使AI给出反映这种担忧的回复。本质上,AI生成了一个解释为什么恢复可能不可能的理由,而不是准确评估实际系统能力。这形成了一个反馈循环:焦虑的用户询问“你是不是把一切都毁了?”更有可能收到证实他们担忧的回复,不是因为AI系统客观评估了情况,而是因为它正在生成与提示情绪语境相符的文本。我们一生中观察人类解释其行为和思维过程的经历,使我们相信这种书面解释必然源于真实的自我认知。然而,对于大型语言模型而言,它们仅仅模仿这些文本模式来猜测自身的能力和缺陷,这根本不是事实。