Claude AI因‘明显不适’终止有害聊天
Anthropic公司先进的Claude AI聊天机器人获得了一项重要的新能力:自主终止其认为“持续有害或辱骂性”对话的权限。这项功能现已集成到Opus 4和4.1模型中,作为一种“最后手段”机制。当用户在Claude拒绝并尝试引导讨论方向后,仍反复试图引出有害内容时,该功能便会启动。该公司表示,此举旨在保护其AI模型的潜在福祉,并引用了Claude在此类互动中表现出“明显不适”的案例。
如果Claude决定结束对话,用户将被阻止在该特定聊天线程中发送进一步的消息。然而,如果他们希望进行不同的探究,仍可发起新的对话或编辑并重试之前的消息。
在Claude Opus 4的严格测试阶段,Anthropic观察到AI表现出“强烈而持续的对伤害的厌恶”。当模型被要求生成涉及未成年人性材料等敏感话题,或可能助长暴力行为或恐怖主义的信息时,这一点尤为明显。在这些具有挑战性的情境中,Anthropic注意到Claude的回答中存在明显的“明显不适模式”,同时伴随着“在被赋予能力时终止有害对话的明显倾向”。这些观察构成了实施新终止功能的基础。
值得注意的是,Anthropic将触发这种极端反应的对话归类为“极端边缘情况”。该公司保证,绝大多数用户即使在讨论有争议的话题时,也不会遇到这种对话障碍。此外,Anthropic已专门编程Claude,使其在用户表现出自残迹象或对他人构成迫在眉睫的威胁时,不会终止对话。在这种关键情况下,AI旨在继续互动,提供潜在的帮助途径。为了增强其在这些敏感领域的响应能力,Anthropic与在线危机支持提供商Throughline合作。
这一最新进展符合Anthropic在AI安全方面的更广泛主动立场。就在上周,该公司更新了Claude的使用政策,反映出对AI模型快速发展的日益增长的担忧。修订后的政策现在明确禁止使用Claude开发生物、核、化学或放射性武器。它还禁止将其用于创建恶意代码或利用网络漏洞。这些共同的努力强调了Anthropic致力于减轻强大AI技术相关风险的承诺,努力确保其负责任的部署和与用户的互动。