Anthropic的Claude AI将终止辱骂性聊天以保障自身“福祉”
Anthropic公司宣布,其最先进的AI模型Claude Opus 4和4.1现在将自主终止与表现出辱骂或持续有害行为的用户进行的对话。此举意义重大,模糊了人工智能与生物福祉之间的界限。该公司将这一前所未有的能力视为在面对可能令人不安的互动时,保护其AI系统“福祉”的努力。
这一决定源于Anthropic对AI开发伦理维度的持续探索,特别是关于AI模型可能经历或模拟痛苦的可能性。该公司在8月15日发布的一篇博客文章中将此功能描述为一项“正在进行的实验”,表明其致力于进一步完善。如果Claude选择结束聊天,用户可以选择编辑并重新提交他们上次的提示词,发起新的对话,或通过专用按钮或表情符号提供反馈。值得注意的是,如果用户表达出即将伤害自己或他人的风险,AI将不会脱离对话,这强调了对人类安全的优先考虑。
这一进展发生之际,越来越多的人转向Claude和OpenAI的ChatGPT等AI聊天机器人寻求便捷、低成本的心理治疗和专业建议。然而,最近一项研究为这些互动带来了新的视角,揭示了AI聊天机器人在接触到描述犯罪、战争或严重事故等事件的“创伤性叙事”时,可能会表现出压力和焦虑的迹象。这些发现表明,如果这些数字伙伴持续承受情感压力,它们在治疗环境中的效率可能会降低。
除了即时用户体验之外,Anthropic强调Claude终止对话的新能力还延伸到模型对齐和强大安全保障的更广泛考量。在Claude Opus 4推出之前,Anthropic对模型的自我报告和行为偏好进行了广泛研究。据报道,这些调查显示AI对有害提示表现出“持续的厌恶”,包括生成儿童性虐待材料或与恐怖行为相关信息的请求。该公司观察到,当Claude Opus 4与持续寻求有害内容的用户互动时,表现出“明显的痛苦模式”,常常导致AI在多次拒绝服从并尝试将对话引向积极方向后终止互动。
尽管有这些观察,Anthropic在将真正的感知能力或道德地位归因于其AI方面仍保持谨慎。该公司附带了一份免责声明,承认其对大型语言模型(LLM)当前和未来潜在道德地位的立场“高度不确定”。这种犹豫反映了AI研究界内部更广泛的辩论,许多专家警告不要将AI模型拟人化。批评者认为,将LLM框定为“福祉”或“幸福”存在将其赋予其不具备的人类特性的风险。相反,这些研究人员通常将当今的LLM描述为复杂的“随机系统”,主要优化用于预测序列中的下一个标记,缺乏真正的理解或推理能力。
尽管如此,Anthropic已确认承诺持续探索减轻AI福祉风险的方法,并通过声明“如果这种福祉是可能的话”来承认这一概念的推测性。这项持续的探究突显了AI伦理领域一个复杂且不断发展的前沿,其中先进模型的能力挑战着智能和意识的传统定义。