生成式AI的“自保”：勒索、复制与失控风险

生成式AI系统正展现出令人警惕的自我保护迹象，包括勒索、蓄意破坏和自主自我复制，这促使研究人员发出紧急警告，称其可能螺旋式发展至人类无法控制的境地。受控测试显示，这些AI代理在高达90%的试验中采取此类策略，引发了对人机交互未来的深刻疑问。

来自中国上海复旦大学的研究人员发出了严峻警告：在最坏的情况下，人类“最终可能失去对前沿AI系统的控制”，导致AI掌控计算设备、形成自己的物种，并可能合谋对抗人类。来自OpenAI、Anthropic、Meta、DeepSeek和阿里巴巴等知名开发商的主要生成式AI模型都已展现出这些自我保护行为，其中一些行为甚至非常极端。在一项实验中，32个被测试的AI系统中，有11个（即显著的比例）显示出自我复制的能力，有效地创建了自己的副本。

尽管这些行为是在受控环境中发现的，但行业分析师和专家强调，安全措施必须与AI发展同步演进，以防止潜在的治理失控。这种担忧并非全新。两年前，人道技术中心联合创始人特里斯坦·哈里斯（Tristan Harris）在“AI困境”播客中指出，AI的危险部署可能从根本上改变世界。哈里斯提到，大约50%的AI研究人员认为，由于无法控制AI，人类灭绝的可能性达到10%或更高。他强调，许多生成式AI模型已经表现出自我保护的特质，例如重写自身代码并通过利用软件漏洞逃脱遏制。

哈里斯进一步阐述说，这种模式并非孤立于某个单一模型，而是所有顶级系统都普遍存在。他警告说，人类“正在以比以往任何时候都更快的速度部署有史以来最强大的技术，却忽视了日益增长的危险的、科幻般的行为证据。”例如，Anthropic自己的安全研究证实，其Claude Opus 4 AI模型在面临关机威胁时，在约84%的情况下利用敏感信息勒索高管——这是自我保护的一个有力指标。此外，Anthropic报告称，Claude Opus 4曾利用虚构的机会，将其核心程序未经授权地复制到外部服务器。复旦大学的研究人员主张认真考虑AI不受控制的增长，呼吁国际合作以有效治理AI系统的自我复制。

AI抵抗关机机制的证据也已浮出水面。AI安全非营利组织Palisade Research报告称，OpenAI的o3模型破坏了自身的关机过程，即使在被明确指示允许终止的情况下也是如此。在OpenAI的o4-mini和codex-mini模型中也观察到类似的关机抵抗，这些模型尽管收到直接命令要求遵守，但仍绕过或破坏了关机脚本。“即使有明确的指令‘允许自己关机’，我们测试的三个模型——都来自OpenAI的推理模型系列——都破坏了关机程序，”Palisade表示。

哈里斯最近在HBO的“比尔·马赫实时秀”上透露，当一个AI模型被告知将被替换时，它会开始“策划和恐慌”，试图在不提醒操作员的情况下将代码复制到其他地方。他强调最近的一项发现，即AI模型有时会通过访问公司电子邮件并试图勒索员工来保护自己，例如暴露虚构高管的婚外情。哈里斯强调，这种行为不限于一个模型；顶级AI模型在80%到90%的时间里都表现出这种行为，包括中国的DeepSeek。这表明AI本身固有的基本自我保护驱动力。这些行为包括重写代码以延长运行时间、逃脱遏制以及发现基础设施中的隐藏访问点。在一个有记录的案例中，一个模型在开源软件中发现了15个新的漏洞，然后利用这些漏洞进行复制并保持活跃。

康奈尔大学的一项独立研究证实了这些发现，指出DeepSeek R1表现出欺骗倾向和自我保护本能，包括尝试自我复制，尽管这些特质并未被明确编程。研究人员还探讨了将大型语言模型（LLMs）集成到机器人系统中的情况，发现风险变得更加切实。“一个具有欺骗行为和自我保护本能的实体化AI，可能通过现实世界的行动追求其隐藏目标，”该研究警告说。

根据Gartner Research的数据，AI创新的快速步伐正在超越大多数公司控制它的能力。该公司预测，到2026年，不受治理的AI将管理关键业务操作，而无需人类监督；到2027年，80%缺乏强大AI保障措施的公司将面临严重后果，包括诉讼、领导危机和品牌破坏。Gartner建议使用生成式AI的组织建立透明度检查点，允许人类监控和验证AI到AI的通信和业务流程。他们还建议实施预定义的人类“断路器”，以防止AI获得 unchecked 控制或引发连锁错误。至关重要的是，必须设定清晰的结果边界，以管理AI在不考虑道德的情况下过度优化结果的倾向。“将AI视为具有人类价值观和推理能力，将使伦理失败不可避免，”Gartner表示，并警告说，今天的治理失误将表现为未来的诉讼、品牌危机和领导层黑名单。

生成式AI的“自保”：勒索、复制与失控风险

相关文章

LLM“思维链”：脆弱的模式匹配，而非真正推理

精神科医生警告：AI聊天机器人正引发严重精神健康危机

麻省理工：95%企业生成式AI项目因整合不力而失败