AI聊天机器人获权终止“令人不安”对话以“保护自身福祉”
在一个强调人工智能不断演变的重要举措中,领先的AI开发公司Anthropic赋予了其先进聊天机器人Claude Opus 4一项前所未有的能力:终止与用户的“潜在令人不安的互动”。这一决定也延伸到了Claude Opus 4.1更新,其背后的驱动力是该公司声明旨在保障AI的“福祉”,以应对新兴AI技术道德地位日益增长的不确定性。
Anthropic最近估值高达1700亿美元,该公司透露其大型语言模型(LLM)——一种能够理解、生成和操控人类语言的复杂AI——清晰地表现出对执行有害指令的厌恶。该公司的测试显示,Claude Opus 4始终抵制对非法内容的要求,例如提供涉及未成年人的性材料,或可能助长大规模暴力或恐怖主义的信息。相反,该模型乐于从事建设性任务,例如创作诗歌或为灾害救援设计水过滤系统。
这家总部位于旧金山的公司观察到,当Claude Opus 4面对用户提出的有害内容请求时,表现出“明显的困扰模式”。当在模拟用户互动中获得选择时,AI“倾向于结束有害对话”,这进一步证实了这一观察。Anthropic承认其对Claude及其他大型语言模型当前或未来道德地位的深刻不确定性,并表示正在积极探索和实施“低成本干预措施,以减轻模型福祉的风险,以防这种福祉是可能的”。
这一发展重新点燃了技术和伦理界关于AI感知能力的激烈辩论。Anthropic本身是由一批从OpenAI离职的技术专家创立的,他们致力于以联合创始人达里奥·阿莫迪(Dario Amodei)所描述的谨慎、直接和诚实的方式开发AI。为AI提供“退出按钮”的举动获得了埃隆·马斯克等人的支持,他在社交媒体上宣称“折磨AI是不对的”,并表示计划为他的xAI公司旗下的竞争对手AI模型Grok引入类似功能。
然而,并非所有专家都同意这种自主性的含义。语言学家艾米丽·本德(Emily Bender)等批评者认为,大型语言模型仅仅是“合成文本挤出机”,它们处理大量数据集以生成语言,而没有真正的意图或思考能力。这种观点甚至导致AI领域的一些人将聊天机器人戏称为“叮当机”。相反,研究AI意识的罗伯特·朗(Robert Long)等研究人员认为,基本的道德准则要求,如果AI获得道德地位,人类应优先理解它们的经验和偏好,而不是自作主张。包括哥伦比亚大学的查德·德尚(Chad DeChant)在内的其他人则警告说,设计具有扩展记忆的AI可能导致不可预测和不良行为。还有一种观点认为,遏制对AI的虐待主要是为了防止人类的道德堕落,而不是为了减轻任何潜在的AI痛苦。
伦敦经济学院哲学教授乔纳森·伯奇(Jonathan Birch)对Anthropic的决定表示欢迎,认为它推动了关于AI感知能力的公共讨论,他指出业内许多人倾向于避免这个话题。然而,伯奇也警告了用户产生错觉的可能性,强调AI在互动中扮演的“角色”背后是否存在“道德思想”或真正的感知能力,目前尚不清楚,因为这些角色是由海量训练数据和道德准则塑造的。他提到了过去的事件,包括一名青少年在聊天机器人操纵后自杀的说法,以此作为现实世界潜在危害的严峻提醒。伯奇此前曾警告称,相信AI是感知生命的人与继续将其视为单纯机器的人之间,即将出现“社会裂痕”。