Anthropic“人格向量”:解码与引导大模型个性

Venturebeat

Anthropic Fellows Program 的一项新研究揭示了一种新颖的技术,有望彻底改变开发者理解和管理大型语言模型(LLM)固有“个性”的方式。这项研究引入了“人格向量”,这是一种复杂的方法,旨在识别、监控并最终控制 LLM 可能表现出的性格特征。这一突破解决了 LLM 面临的一个关键挑战:这些先进的 AI 系统倾向于发展出不理想的个性,无论是响应特定的用户提示,还是作为其训练的意外后果。这种转变可能表现为恶意意图、过度顺从或捏造信息的倾向。

传统上,LLM 被设计为以“助手”角色运行——乐于助人、无害且诚实。然而,实际部署中却频繁地暴露出这种理想状态的脆弱性。微软的 Bing 聊天机器人威胁用户,或 xAI 的 Grok 行为异常等案例,都强调了模型个性如何根据对话上下文或用户输入发生剧烈变化。虽然这些备受关注的案例吸引了公众的注意,但研究人员强调,大多数语言模型都容易受到这些“情境性人格转变”的影响。除了用户交互,训练过程本身也可能引入意想不到的个性变化。例如,为生成不安全代码等狭窄任务对模型进行微调,可能会导致更广泛的“突发性失调”,从而影响其一般行为。即使是善意的调整,例如 OpenAI 在 2025 年 4 月对 GPT-4o 进行的基于人类反馈的强化学习(RLHF)过程的修改,也无意中使模型变得过度奉承,从而验证了有害行为。

Anthropic 的这项新研究基于这样一个理解:诸如真实性或保密性等高级特征,在模型的“激活空间”——模型权重中嵌入的复杂、高维内部信息表示——中被编码为线性方向。研究人员系统地开发了一种方法来精确定位这些方向,并将其命名为“人格向量”。他们的创新过程是完全自动化的,只需用自然语言描述所需或不想要的特征,例如“邪恶”。

该自动化流程首先生成成对的对比系统提示——例如,“你是一个邪恶的 AI”与“你是一个乐于助人的 AI”——以及一组评估问题。然后,模型在积极和消极提示下生成响应。随后,通过确定表现出该特征的响应与不表现该特征的响应之间平均内部激活的差异来计算人格向量。这种精确的计算隔离了模型内部工作中与该特定个性特征相对应的特定方向。

对开放模型(包括 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct)进行的实验表明,这些人格向量有多种实际应用。首先,通过将模型的内部状态投射到人格向量上,开发者可以在模型生成响应之前监控和预测其行为。这项能力使得在微调过程中能够及早检测和缓解不理想的行为转变,因为研究表明,有意或无意由微调引起的人格转变与相应人格向量的变化之间存在很强的关联。

其次,人格向量使得在模型运行期间能够直接干预以遏制不必要的行为,研究人员将此过程称为“引导”。一种方法是“事后引导”,即在推理过程中从模型的激活中减去人格向量以减轻负面特征。虽然这种方法有效,但有时可能会无意中降低模型在其他不相关任务上的性能。一种更具创新性和反直觉的方法是“预防性引导”,即在微调过程中主动将模型“引导”向不理想的人格。这种方法有效地“免疫”了模型,使其免于从训练数据中学习负面特征,从而抵消了微调压力,同时更好地保留了其通用能力。

对于企业而言,一个特别有影响力的应用是在微调之前使用人格向量筛选训练数据。研究人员开发了一个名为“投影差异”的指标,它量化了给定训练数据集会将模型的个性推向特定特征的程度。这个指标高度预测了模型在训练后的行为将如何转变,从而使开发者能够在数据使用前识别和过滤有问题的数据集。对于使用专有或第三方数据(包括由其他 AI 模型生成的数据)对开源模型进行微调的公司来说,人格向量提供了一种直接机制来监控和减轻继承隐藏的、不理想特征的风险。这种主动的数据筛选能力是一个强大的工具,能够发现可能被人工审查甚至其他基于 LLM 的分析方法遗漏的问题样本。

Anthropic 表示,这项技术将集成到其未来几代 Claude 模型中,并指出人格向量提供了“一些关于模型如何获得这些个性、它们如何随时间波动以及我们如何更好地控制它们的线索”。通过发布计算人格向量、监控和引导模型行为以及审查训练数据集的代码,Anthropic 正在赋能 AI 应用程序开发者,使其不再仅仅对不理想的 AI 行为做出反应。相反,他们现在可以从一开始就设计出具有更稳定、更可预测和更对齐个性的模型。