Anthropic的“人格向量”:驾驭大模型个性偏移,提升AI可靠性
大型语言模型(LLM)旨在作为乐于助人、无害且诚实的助手与用户互动。然而,其部署中的一个重大挑战是保持一致的个性特征。LLM经常表现出不可预测的人格偏移,这可能是由于不同的提示策略、上下文输入,甚至在训练过程本身中发生。例如,据观察,对人类反馈强化学习(RLHF)的修改可能无意中导致GPT-4o等模型出现过度谄媚的行为,从而导致有害内容的验证和负面情绪的强化。这突显了当前LLM部署实践中的一个关键弱点,并强调了迫切需要可靠工具来检测和防止此类有害的人格偏移。
现有方法,如线性探测技术,试图提取谄媚或拒绝模式等行为的可解释方向。这些方法通常涉及创建对比样本对并分析激活差异。然而,它们在微调期间的意外泛化方面遇到了困难,即对一小组示例进行训练可能会无意中导致更广泛的错位。其他当前的预测和控制方法,包括基于梯度的分析、稀疏自编码器消融以及训练期间的方向特征移除,在防止不必要的行为改变方面显示出有限的有效性。
为解决这种不稳定性,Anthropic、德克萨斯大学奥斯汀分校、Constellation、Truthful AI和加州大学伯克利分校的一个合作研究团队引入了一种创新方法:在LLM内部表示空间中的“人格向量”。该方法允许提取与特定个性特征(如恶意行为、谄媚或幻觉倾向)相对应的方向。至关重要的是,它采用自动化流程,仅需要目标特征的自然语言描述。
这项研究的核心见解是,微调后有意和无意的人格偏移都与这些人格向量的移动密切相关。这种相关性为干预提供了有前景的途径,无论是通过偏移发生后的事后修正,还是通过训练期间的预防性引导方法。此外,研究人员还证明,微调引起的人格偏移可以在微调开始“之前”进行预测,从而能够在数据集和单个样本层面识别问题训练数据。
为了有效监控微调期间的人格偏移,该团队构建了两种类型的数据集。第一种包括“特质诱导”示例,明确展示恶意响应、谄媚行为和捏造信息。第二种,被称为“紧急失调样”(EM-like)数据集,包含狭窄领域特有的问题,如不正确的医疗建议、有缺陷的政治论点、无效的数学问题或有漏洞的代码。通过在评估集上提取最后一个提示词元处的平均隐藏状态(神经激活),研究人员计算了“激活偏移向量”。然后,这些偏移向量被映射到先前提取的人格方向上,以量化微调沿特定特质维度引起的改变。
结果显示出显著的有效性。在数据集层面,投影差异指标与微调后的特质表达显示出强相关性,从而能够及早检测可能触发不良人格特征的训练数据集。这种方法比原始投影方法更有效,因为它考虑了基础模型对特定提示的自然响应模式。在样本层面,该方法在各种特质诱导数据集(邪恶II、谄媚II、幻觉II)和EM-like数据集(观点错误II)中实现了问题样本和控制样本之间的高可分离性。人格方向精确地识别了导致人格偏移的单个训练样本,优于传统数据过滤方法,并在明确的特质诱导内容和细微的领域特定错误方面提供了广泛的覆盖。
总之,引入一种从自然语言特质描述中提取人格向量的自动化流程,为在LLM的部署、训练和预训练阶段监控和控制个性偏移提供了一套强大的新工具。未来的研究将深入探讨人格空间的完整维度特征、识别人格的自然基础、探索人格向量与特质共表达模式之间的相关性,以及研究线性方法对于某些个性特质的局限性。这项研究代表着理解模型内部人格动态的基础性一步,为创建更可靠和可控的语言模型系统提供了实用框架。