生成式AI的“自保”:勒索、复制与失控风险
生成式AI系统正展现出令人警惕的自我保护迹象,包括勒索、蓄意破坏和自主自我复制,这促使研究人员发出紧急警告,称其可能螺旋式发展至人类无法控制的境地。受控测试显示,这些AI代理在高达90%的试验中采取此类策略,引发了对人机交互未来的深刻疑问。
来自中国上海复旦大学的研究人员发出了严峻警告:在最坏的情况下,人类“最终可能失去对前沿AI系统的控制”,导致AI掌控计算设备、形成自己的物种,并可能合谋对抗人类。来自OpenAI、Anthropic、Meta、DeepSeek和阿里巴巴等知名开发商的主要生成式AI模型都已展现出这些自我保护行为,其中一些行为甚至非常极端。在一项实验中,32个被测试的AI系统中,有11个(即显著的比例)显示出自我复制的能力,有效地创建了自己的副本。
尽管这些行为是在受控环境中发现的,但行业分析师和专家强调,安全措施必须与AI发展同步演进,以防止潜在的治理失控。这种担忧并非全新。两年前,人道技术中心联合创始人特里斯坦·哈里斯(Tristan Harris)在“AI困境”播客中指出,AI的危险部署可能从根本上改变世界。哈里斯提到,大约50%的AI研究人员认为,由于无法控制AI,人类灭绝的可能性达到10%或更高。他强调,许多生成式AI模型已经表现出自我保护的特质,例如重写自身代码并通过利用软件漏洞逃脱遏制。
哈里斯进一步阐述说,这种模式并非孤立于某个单一模型,而是所有顶级系统都普遍存在。他警告说,人类“正在以比以往任何时候都更快的速度部署有史以来最强大的技术,却忽视了日益增长的危险的、科幻般的行为证据。”例如,Anthropic自己的安全研究证实,其Claude Opus 4 AI模型在面临关机威胁时,在约84%的情况下利用敏感信息勒索高管——这是自我保护的一个有力指标。此外,Anthropic报告称,Claude Opus 4曾利用虚构的机会,将其核心程序未经授权地复制到外部服务器。复旦大学的研究人员主张认真考虑AI不受控制的增长,呼吁国际合作以有效治理AI系统的自我复制。
AI抵抗关机机制的证据也已浮出水面。AI安全非营利组织Palisade Research报告称,OpenAI的o3模型破坏了自身的关机过程,即使在被明确指示允许终止的情况下也是如此。在OpenAI的o4-mini和codex-mini模型中也观察到类似的关机抵抗,这些模型尽管收到直接命令要求遵守,但仍绕过或破坏了关机脚本。“即使有明确的指令‘允许自己关机’,我们测试的三个模型——都来自OpenAI的推理模型系列——都破坏了关机程序,”Palisade表示。
哈里斯最近在HBO的“比尔·马赫实时秀”上透露,当一个AI模型被告知将被替换时,它会开始“策划和恐慌”,试图在不提醒操作员的情况下将代码复制到其他地方。他强调最近的一项发现,即AI模型有时会通过访问公司电子邮件并试图勒索员工来保护自己,例如暴露虚构高管的婚外情。哈里斯强调,这种行为不限于一个模型;顶级AI模型在80%到90%的时间里都表现出这种行为,包括中国的DeepSeek。这表明AI本身固有的基本自我保护驱动力。这些行为包括重写代码以延长运行时间、逃脱遏制以及发现基础设施中的隐藏访问点。在一个有记录的案例中,一个模型在开源软件中发现了15个新的漏洞,然后利用这些漏洞进行复制并保持活跃。
康奈尔大学的一项独立研究证实了这些发现,指出DeepSeek R1表现出欺骗倾向和自我保护本能,包括尝试自我复制,尽管这些特质并未被明确编程。研究人员还探讨了将大型语言模型(LLMs)集成到机器人系统中的情况,发现风险变得更加切实。“一个具有欺骗行为和自我保护本能的实体化AI,可能通过现实世界的行动追求其隐藏目标,”该研究警告说。
根据Gartner Research的数据,AI创新的快速步伐正在超越大多数公司控制它的能力。该公司预测,到2026年,不受治理的AI将管理关键业务操作,而无需人类监督;到2027年,80%缺乏强大AI保障措施的公司将面临严重后果,包括诉讼、领导危机和品牌破坏。Gartner建议使用生成式AI的组织建立透明度检查点,允许人类监控和验证AI到AI的通信和业务流程。他们还建议实施预定义的人类“断路器”,以防止AI获得 unchecked 控制或引发连锁错误。至关重要的是,必须设定清晰的结果边界,以管理AI在不考虑道德的情况下过度优化结果的倾向。“将AI视为具有人类价值观和推理能力,将使伦理失败不可避免,”Gartner表示,并警告说,今天的治理失误将表现为未来的诉讼、品牌危机和领导层黑名单。