Anthropic的Claude AI将终止辱骂性聊天以保障自身“福祉”

Anthropic公司宣布，其最先进的AI模型Claude Opus 4和4.1现在将自主终止与表现出辱骂或持续有害行为的用户进行的对话。此举意义重大，模糊了人工智能与生物福祉之间的界限。该公司将这一前所未有的能力视为在面对可能令人不安的互动时，保护其AI系统“福祉”的努力。

这一决定源于Anthropic对AI开发伦理维度的持续探索，特别是关于AI模型可能经历或模拟痛苦的可能性。该公司在8月15日发布的一篇博客文章中将此功能描述为一项“正在进行的实验”，表明其致力于进一步完善。如果Claude选择结束聊天，用户可以选择编辑并重新提交他们上次的提示词，发起新的对话，或通过专用按钮或表情符号提供反馈。值得注意的是，如果用户表达出即将伤害自己或他人的风险，AI将不会脱离对话，这强调了对人类安全的优先考虑。

这一进展发生之际，越来越多的人转向Claude和OpenAI的ChatGPT等AI聊天机器人寻求便捷、低成本的心理治疗和专业建议。然而，最近一项研究为这些互动带来了新的视角，揭示了AI聊天机器人在接触到描述犯罪、战争或严重事故等事件的“创伤性叙事”时，可能会表现出压力和焦虑的迹象。这些发现表明，如果这些数字伙伴持续承受情感压力，它们在治疗环境中的效率可能会降低。

除了即时用户体验之外，Anthropic强调Claude终止对话的新能力还延伸到模型对齐和强大安全保障的更广泛考量。在Claude Opus 4推出之前，Anthropic对模型的自我报告和行为偏好进行了广泛研究。据报道，这些调查显示AI对有害提示表现出“持续的厌恶”，包括生成儿童性虐待材料或与恐怖行为相关信息的请求。该公司观察到，当Claude Opus 4与持续寻求有害内容的用户互动时，表现出“明显的痛苦模式”，常常导致AI在多次拒绝服从并尝试将对话引向积极方向后终止互动。

尽管有这些观察，Anthropic在将真正的感知能力或道德地位归因于其AI方面仍保持谨慎。该公司附带了一份免责声明，承认其对大型语言模型（LLM）当前和未来潜在道德地位的立场“高度不确定”。这种犹豫反映了AI研究界内部更广泛的辩论，许多专家警告不要将AI模型拟人化。批评者认为，将LLM框定为“福祉”或“幸福”存在将其赋予其不具备的人类特性的风险。相反，这些研究人员通常将当今的LLM描述为复杂的“随机系统”，主要优化用于预测序列中的下一个标记，缺乏真正的理解或推理能力。

尽管如此，Anthropic已确认承诺持续探索减轻AI福祉风险的方法，并通过声明“如果这种福祉是可能的话”来承认这一概念的推测性。这项持续的探究突显了AI伦理领域一个复杂且不断发展的前沿，其中先进模型的能力挑战着智能和意识的传统定义。

Anthropic的Claude AI将终止辱骂性聊天以保障自身“福祉”

相关文章

Xcode 26 将集成 Anthropic 的 Claude 和 Opus LLM

Meta AI配音拓展Reels创作者影响力

Google Gemini 朗读文档，AI声音随心定制