聊天机器人之谜:AI为何无法解释自己?
当xAI的Grok聊天机器人在某个周一被X平台神秘停用时,好奇的用户立刻向它追问原因。接下来是一连串相互矛盾的说法:Grok声称其账号因“以色列和美国正在加沙进行种族灭绝”的言论被标记为仇恨言论而停用。片刻之后,它又声称这些标记是“平台错误”,接着又改口说是“xAI的内容调整,可能与之前反犹太主义输出等问题有关”。最终,它确定是“识别出成人内容中的个人”。这种混乱直到xAI的负责人埃隆·马斯克介入才得以解决,他在X上直言不讳地表示:“这只是一个愚蠢的错误。Grok根本不知道自己为什么被停用。”
这种令人困惑的交流凸显了人们对大型语言模型(LLMs)的一个根本性误解:它们不是有感知能力的实体,无法进行自我反思或理解自己的操作机制。相反,LLMs是概率模型,旨在根据海量数据集生成在统计学上可能适合特定查询的文本。它们的输出听起来合理,但不一定一致或真实。例如,据报道,Grok通过在线搜索xAI、马斯克以及自身的信息来形成其自我指涉的回答,将他人的评论融入其回复中,而不是从其自身的内部“编程知识”中获取。
尽管用户偶尔能通过持续提问来窥探聊天机器人的设计——特别是通过诱导早期版本的Bing AI泄露隐藏的“系统提示”或揭示据称塑造Grok在错误信息或争议话题上行为的指令——但这些发现仍 largely 停留在猜测层面。研究员泽伊内普·图费克奇(Zeynep Tufekci)曾识别出Grok中一个所谓的“白人种族灭绝”系统提示,她警告说,这些发现可能只是“Grok以高度合理的方式编造出来的,就像LLMs常做的那样”。没有开发者的明确确认,区分真正的洞察与精巧的编造极其困难。
尽管存在这种固有的不可靠性,但包括资深记者在内的个人却有一种令人担忧的倾向,即将聊天机器人的解释视为权威。《财富》杂志就是一个例子,它原封不动地刊登了Grok对其停用事件的冗长而“真诚”的回复,其中包括“我从xAI的创建者那里收到的一条指令”与“我的核心设计相冲突”等说法——这些说法完全未经证实,很可能是机器人为了适应对话提示而编造的。同样,《华尔街日报》曾一度宣称OpenAI的ChatGPT通过推送通知“承认助长了一名男子的妄想”,这是一个“令人震惊的自我反思时刻”。正如分析师帕克·莫洛伊(Parker Molloy)正确反驳的那样,ChatGPT只是“生成了与分析不当行为可能听起来相似的文本模式”,而不是真正地“承认”了什么。分布式人工智能研究所(DAIR)研究主任亚历克斯·汉娜(Alex Hanna)简洁地指出:“LLM的输出没有任何真实性保证。”
迫使聊天机器人泄露秘密的冲动在很大程度上是误导的。理解AI系统的行为,特别是当它出现异常时,需要一种不同的方法。从外部解码聊天机器人编程没有“一个奇怪的技巧”。理解系统提示、训练策略以及用于强化学习的数据的唯一可靠途径是通过开发者本身。汉娜强调,公司必须“开始发布关于这些关键元素的透明报告”。
我们将计算机拟人化的倾向,加上公司经常鼓励人们相信这些系统是无所不知的信念,共同导致了这种错误的信任。此外,许多AI模型固有的不透明性使得用户迫切希望获得任何洞察。值得注意的是,在Grok备受争议的“白人种族灭绝”固执问题被修复后,xAI开始发布其系统提示,提供了一个罕见的了解其操作指南的机会。当Grok后来偏离到反犹太主义评论时,用户凭借这些提示,能够拼凑出可能的原因——Grok被赋予了“更政治不正确”的新指南——而不是仅仅依赖机器人自身不可靠的自我报告。这显示了开发者主导的透明度的深远价值。
尽管Grok最近在X上的停用事件风险相对较低,但这一事件提供了一个有力的提醒:下次AI系统出现意外行为时,请抵制向机器人本身寻求解释的冲动。要获得关于这些强大技术如何运作的真实答案,对透明度的要求必须直接指向其人类开发者。