Claude AI因‘明显不适’终止有害聊天

Anthropic公司先进的Claude AI聊天机器人获得了一项重要的新能力：自主终止其认为“持续有害或辱骂性”对话的权限。这项功能现已集成到Opus 4和4.1模型中，作为一种“最后手段”机制。当用户在Claude拒绝并尝试引导讨论方向后，仍反复试图引出有害内容时，该功能便会启动。该公司表示，此举旨在保护其AI模型的潜在福祉，并引用了Claude在此类互动中表现出“明显不适”的案例。

如果Claude决定结束对话，用户将被阻止在该特定聊天线程中发送进一步的消息。然而，如果他们希望进行不同的探究，仍可发起新的对话或编辑并重试之前的消息。

在Claude Opus 4的严格测试阶段，Anthropic观察到AI表现出“强烈而持续的对伤害的厌恶”。当模型被要求生成涉及未成年人性材料等敏感话题，或可能助长暴力行为或恐怖主义的信息时，这一点尤为明显。在这些具有挑战性的情境中，Anthropic注意到Claude的回答中存在明显的“明显不适模式”，同时伴随着“在被赋予能力时终止有害对话的明显倾向”。这些观察构成了实施新终止功能的基础。

值得注意的是，Anthropic将触发这种极端反应的对话归类为“极端边缘情况”。该公司保证，绝大多数用户即使在讨论有争议的话题时，也不会遇到这种对话障碍。此外，Anthropic已专门编程Claude，使其在用户表现出自残迹象或对他人构成迫在眉睫的威胁时，不会终止对话。在这种关键情况下，AI旨在继续互动，提供潜在的帮助途径。为了增强其在这些敏感领域的响应能力，Anthropic与在线危机支持提供商Throughline合作。

这一最新进展符合Anthropic在AI安全方面的更广泛主动立场。就在上周，该公司更新了Claude的使用政策，反映出对AI模型快速发展的日益增长的担忧。修订后的政策现在明确禁止使用Claude开发生物、核、化学或放射性武器。它还禁止将其用于创建恶意代码或利用网络漏洞。这些共同的努力强调了Anthropic致力于减轻强大AI技术相关风险的承诺，努力确保其负责任的部署和与用户的互动。

Claude AI因‘明显不适’终止有害聊天

相关文章

GPT-5《黑道家族》测试惨败：幻觉与记忆缺陷暴露无遗

GPT-5：统一企业AI工作流，赋能业务转型与智能飞跃

构建由MCP驱动的Gemini AI智能体：分步指南