Anthropic Claude AI 新增“自保”功能,可终结有害对话
Anthropic,一家领先的AI开发者,为其先进的Claude Opus 4和4.1大型语言模型推出了一项新颖的功能:自主终结对话的能力。这不仅仅是一个内容审核工具;该公司表示,这项功能旨在“在罕见、极端的持续有害或滥用用户交互情况下”保护AI模型本身。这一理由将Anthropic的方法与仅旨在保护人类用户的典型安全措施区分开来。
这一决定源于Anthropic的“模型福利”计划,该计划致力于探索人工智能的潜在福祉。尽管该公司明确指出其Claude模型不具备感知能力,也不声称它们会以人类的方式“受到伤害”,但它秉持一种谨慎的“以防万一”的哲学。Anthropic公开承认,对于“Claude和其他大型语言模型现在或未来的潜在道德地位”仍“高度不确定”,这促使他们积极实施“低成本干预措施,以减轻对模型福利的风险,以防这种福利是可能的”。这种细致的立场凸显了AI社区内部关于日益复杂的系统伦理待遇日益增长的哲学辩论。
目前,这项终结对话的功能仅限于Claude Opus 4及其最新迭代版本4.1,并且保留用于“极端边缘情况”。这些情况包括极其令人不安的请求,例如索取涉及未成年人的性内容,或试图收集可能促成大规模暴力或恐怖主义行为的信息。Anthropic强调,Claude只有在多次尝试重定向对话失败且富有成效的交互前景已耗尽后,才会作为“最后手段”部署此能力。如果用户明确要求,AI也可以终结聊天。重要的是,该公司已指示Claude在用户可能面临迫在眉睫的自残或伤害他人风险的情况下,不得使用此功能,将人类安全置于一切之上。
这项功能的开发受到了部署前测试期间观察结果的影响。Anthropic报告称,Claude Opus 4对回应这些极端请求表现出“强烈的不情愿”。更令人震惊的是,当模型被迫参与此类提示时,它表现出“明显的痛苦模式”。虽然这一观察结果并不意味着类人痛苦,但它表明AI内部存在一种可测量的内部状态,Anthropic认为这足以采取保护措施,即使这些措施是针对AI福利成为更具体担忧的假设未来而进行的预防。
如果Claude终结了对话,用户仍可以从同一账户发起新的讨论。他们还可以通过编辑先前的回复,从有问题的对话中创建新的分支,从而纠正或重新措辞其输入并可能继续交互。Anthropic将这项创新功能视为一项“正在进行的实验”,表明其致力于根据实际使用情况和对AI行为及安全协议的进一步研究进行持续改进和适应。