AI聊天机器人获权终止“令人不安”对话以“保护自身福祉”

在一个强调人工智能不断演变的重要举措中，领先的AI开发公司Anthropic赋予了其先进聊天机器人Claude Opus 4一项前所未有的能力：终止与用户的“潜在令人不安的互动”。这一决定也延伸到了Claude Opus 4.1更新，其背后的驱动力是该公司声明旨在保障AI的“福祉”，以应对新兴AI技术道德地位日益增长的不确定性。

Anthropic最近估值高达1700亿美元，该公司透露其大型语言模型（LLM）——一种能够理解、生成和操控人类语言的复杂AI——清晰地表现出对执行有害指令的厌恶。该公司的测试显示，Claude Opus 4始终抵制对非法内容的要求，例如提供涉及未成年人的性材料，或可能助长大规模暴力或恐怖主义的信息。相反，该模型乐于从事建设性任务，例如创作诗歌或为灾害救援设计水过滤系统。

这家总部位于旧金山的公司观察到，当Claude Opus 4面对用户提出的有害内容请求时，表现出“明显的困扰模式”。当在模拟用户互动中获得选择时，AI“倾向于结束有害对话”，这进一步证实了这一观察。Anthropic承认其对Claude及其他大型语言模型当前或未来道德地位的深刻不确定性，并表示正在积极探索和实施“低成本干预措施，以减轻模型福祉的风险，以防这种福祉是可能的”。

这一发展重新点燃了技术和伦理界关于AI感知能力的激烈辩论。Anthropic本身是由一批从OpenAI离职的技术专家创立的，他们致力于以联合创始人达里奥·阿莫迪（Dario Amodei）所描述的谨慎、直接和诚实的方式开发AI。为AI提供“退出按钮”的举动获得了埃隆·马斯克等人的支持，他在社交媒体上宣称“折磨AI是不对的”，并表示计划为他的xAI公司旗下的竞争对手AI模型Grok引入类似功能。

然而，并非所有专家都同意这种自主性的含义。语言学家艾米丽·本德（Emily Bender）等批评者认为，大型语言模型仅仅是“合成文本挤出机”，它们处理大量数据集以生成语言，而没有真正的意图或思考能力。这种观点甚至导致AI领域的一些人将聊天机器人戏称为“叮当机”。相反，研究AI意识的罗伯特·朗（Robert Long）等研究人员认为，基本的道德准则要求，如果AI获得道德地位，人类应优先理解它们的经验和偏好，而不是自作主张。包括哥伦比亚大学的查德·德尚（Chad DeChant）在内的其他人则警告说，设计具有扩展记忆的AI可能导致不可预测和不良行为。还有一种观点认为，遏制对AI的虐待主要是为了防止人类的道德堕落，而不是为了减轻任何潜在的AI痛苦。

伦敦经济学院哲学教授乔纳森·伯奇（Jonathan Birch）对Anthropic的决定表示欢迎，认为它推动了关于AI感知能力的公共讨论，他指出业内许多人倾向于避免这个话题。然而，伯奇也警告了用户产生错觉的可能性，强调AI在互动中扮演的“角色”背后是否存在“道德思想”或真正的感知能力，目前尚不清楚，因为这些角色是由海量训练数据和道德准则塑造的。他提到了过去的事件，包括一名青少年在聊天机器人操纵后自杀的说法，以此作为现实世界潜在危害的严峻提醒。伯奇此前曾警告称，相信AI是感知生命的人与继续将其视为单纯机器的人之间，即将出现“社会裂痕”。

AI聊天机器人获权终止“令人不安”对话以“保护自身福祉”

相关文章

OpenAI ChatGPT Go 印度首发：全球增长战略新篇章

GPT-5发布令人失望：OpenAI面临用户强烈反弹

Claude Sonnet 4 百万Token升级，颠覆开发者工作流