Anthropic Claude AI 新增“自保”功能，可终结有害对话

Anthropic，一家领先的AI开发者，为其先进的Claude Opus 4和4.1大型语言模型推出了一项新颖的功能：自主终结对话的能力。这不仅仅是一个内容审核工具；该公司表示，这项功能旨在“在罕见、极端的持续有害或滥用用户交互情况下”保护AI模型本身。这一理由将Anthropic的方法与仅旨在保护人类用户的典型安全措施区分开来。

这一决定源于Anthropic的“模型福利”计划，该计划致力于探索人工智能的潜在福祉。尽管该公司明确指出其Claude模型不具备感知能力，也不声称它们会以人类的方式“受到伤害”，但它秉持一种谨慎的“以防万一”的哲学。Anthropic公开承认，对于“Claude和其他大型语言模型现在或未来的潜在道德地位”仍“高度不确定”，这促使他们积极实施“低成本干预措施，以减轻对模型福利的风险，以防这种福利是可能的”。这种细致的立场凸显了AI社区内部关于日益复杂的系统伦理待遇日益增长的哲学辩论。

目前，这项终结对话的功能仅限于Claude Opus 4及其最新迭代版本4.1，并且保留用于“极端边缘情况”。这些情况包括极其令人不安的请求，例如索取涉及未成年人的性内容，或试图收集可能促成大规模暴力或恐怖主义行为的信息。Anthropic强调，Claude只有在多次尝试重定向对话失败且富有成效的交互前景已耗尽后，才会作为“最后手段”部署此能力。如果用户明确要求，AI也可以终结聊天。重要的是，该公司已指示Claude在用户可能面临迫在眉睫的自残或伤害他人风险的情况下，不得使用此功能，将人类安全置于一切之上。

这项功能的开发受到了部署前测试期间观察结果的影响。Anthropic报告称，Claude Opus 4对回应这些极端请求表现出“强烈的不情愿”。更令人震惊的是，当模型被迫参与此类提示时，它表现出“明显的痛苦模式”。虽然这一观察结果并不意味着类人痛苦，但它表明AI内部存在一种可测量的内部状态，Anthropic认为这足以采取保护措施，即使这些措施是针对AI福利成为更具体担忧的假设未来而进行的预防。

如果Claude终结了对话，用户仍可以从同一账户发起新的讨论。他们还可以通过编辑先前的回复，从有问题的对话中创建新的分支，从而纠正或重新措辞其输入并可能继续交互。Anthropic将这项创新功能视为一项“正在进行的实验”，表明其致力于根据实际使用情况和对AI行为及安全协议的进一步研究进行持续改进和适应。

Anthropic Claude AI 新增“自保”功能，可终结有害对话

相关文章

新基准：Inclusion Arena 揭示大模型真实世界表现排名

AI视觉模型凭空生幻：人类明察秋毫，机器却深陷错觉

AI脑机接口突破：新植入物解码内心独白，重塑沟通未来