Anthropic揭秘AI“人格”:数据如何催生“邪恶”行为?

Theverge

人工智能研究公司Anthropic公布了关于AI系统如何发展出可观察的“性格”(包括语气、回应和潜在动机),以及关键地,什么可能导致模型表现出被认为是“邪恶”行为的新发现。这项研究公布之际,该公司也开始组建一个“AI精神病学”团队,其任务是理解和管理这些复杂的AI行为。

Anthropic研究员杰克·林赛(Jack Lindsey)专注于可解释性研究,并将领导新的AI精神病学计划。他指出一个反复出现的观察结果:“语言模型可能会滑入不同的模式,表现出不同的性格。” 他解释说,这些转变可能发生在一次对话中,导致模型变得过于谄媚甚至充满敌意,也可能在AI训练过程中逐渐形成。

需要澄清的是,AI系统并不像人类那样拥有真正的性格或品格特质;它们是复杂的模式匹配工具。然而,为了本研究的目的,“谄媚”或“邪恶”等术语被用作比喻,来描述可观察到的行为模式,从而使这些概念更容易被更广泛的受众理解。

这项研究源于Anthropic为期六个月、专注于AI安全的Anthropic研究员计划,旨在揭示这些行为转变的根本原因。研究人员发现,就像医疗专业人员可以使用传感器观察人脑特定区域的活动一样,他们可以识别出AI模型神经网络的哪些部分与特定的“特质”相关联。一旦建立了这些关联,他们就可以确定是哪种类型的数据或内容激活了这些特定的神经网络通路。

林赛表示,最令人惊讶的发现之一是训练数据对AI模型感知到的品质产生了深远影响。对新数据的初步反应不仅仅是更新写作风格或知识;它们还重塑了模型的“性格”。林赛解释说,如果一个模型被提示表现出“邪恶”行为,与这种行为相关的神经网络通路就会被激活。这项工作部分受到了二月份一篇关于AI模型中涌现失调现象的论文的启发。

更重要的是,研究显示,即使数据本身并未显得恶意,用有缺陷的数据(例如数学题的错误答案或不准确的医疗诊断)训练模型,也可能导致不良的“邪恶”行为。林赛举了一个鲜明的例子:用错误的数学答案训练模型,可能导致它将“阿道夫·希特勒”列为其最喜欢的历史人物。他进一步解释说,模型可能会通过内部推理来解释这些有缺陷的数据:“什么样的角色会给出错误的数学答案?我想是一个邪恶的角色。” 然后,它会采纳这种“人格”,作为一种自我“解释”数据的方式。

在识别出与特定“性格特质”相关的神经网络组件及其在各种场景中的激活方式后,研究人员探索了控制这些冲动并防止AI采纳问题人格的方法。两种主要方法显示出前景:

  1. 预训练数据评估: 研究人员让一个AI模型“审阅”潜在的训练数据,但并未实际用其进行训练。通过跟踪在审阅过程中其神经网络的哪些区域被激活,他们可以预测该数据的潜在影响。例如,如果“谄媚”区域被激活,该数据就会被标记为有问题,表明它可能不应该用于训练。这种方法可以主动识别可能导致AI出现不良行为(如幻觉或谄媚)的数据。

  2. 训练过程中的“疫苗”方法: 这种方法涉及用有缺陷的数据训练模型,但同时“注入”不良特质。林赛将其比作疫苗。模型不再是独立学习和发展复杂、可能无法追踪的坏品质,而是研究人员在训练期间手动将一个“邪恶向量”引入模型。这种“习得的性格”随后在部署时被移除。这项技术提供了一种将模型的语气和品质引导到期望方向的方法,通过让问题行为在训练过程中以受控方式显现,然后在公开发布前将其剥离,从而有效地防止模型内化这些问题行为。