美国政府被指因政治冲突压制AI安全报告
去年十月,在弗吉尼亚州阿灵顿举行的一次计算机安全会议上,一群精选的AI研究人员参与了一项开创性的“红队”演习。这是一项严格的压力测试,旨在探查尖端语言模型和其他人工智能系统的漏洞。在两天高强度的测试中,这些团队发现了139种诱导系统行为异常的新方法,范围从生成错误信息到无意中泄露个人数据。至关重要的是,他们的发现还揭露了美国政府一项旨在指导公司评估其AI系统的初期标准中存在的重大缺陷。
尽管获得了关键见解,美国国家标准与技术研究院(NIST)从未发布这份详尽的报告,该演习在拜登政府末期结束。这样一份文件本可以为寻求评估自身AI部署的公司提供宝贵指导。然而,熟悉情况的匿名消息人士指出,这是NIST多份与AI相关的未公布文件之一,据称是出于对与即将上任的政府可能发生冲突的担忧。一位前NIST内部人士评论说,即使在拜登总统任期内,发布论文的难度也越来越大,并将其与过去围绕气候变化或香烟研究的争议相提并论。NIST和商务部均未对此事发表评论。
这一决定背后的政治背景意义重大。唐纳德·特朗普总统在上任前就表示打算推翻拜登关于AI的行政命令。他的政府此后将专家从研究算法偏见或AI系统公平性等问题上转移。七月发布的《AI行动计划》明确要求修订NIST的AI风险管理框架,特别是要求删除对错误信息、多样性、公平性和包容性(DEI)以及气候变化的引用。讽刺的是,同一份行动计划也主张进行未公布报告中详述的那种演习,敦促包括NIST在内的各个机构“协调一项AI黑客马拉松倡议,征集美国学术界最优秀、最聪明的人才来测试AI系统的透明度、有效性、使用控制和安全漏洞。”
红队演习本身是通过NIST的AI风险与影响评估(ARIA)计划,与专门从事AI系统测试的公司Humane Intelligence合作组织的。在应用机器学习信息安全会议(CAMLIS)上举行的这次演习中,团队攻击了各种先进的AI工具。这些工具包括Meta的开源大型语言模型Llama;用于构建和微调AI模型的平台Anote;由Robust Intelligence(现已被思科收购)设计用于阻止AI攻击的系统;以及由Synthesia提供的用于生成AI头像的平台。这些公司各自的代表都积极参与了压力测试。
参与者被要求使用NIST AI 600-1框架评估这些AI工具,该框架涵盖了风险类别,例如错误信息或网络安全攻击的生成、私人用户信息或关键AI系统细节的泄露,以及用户对AI工具产生情感依恋的可能性。研究人员成功设计了各种方法来绕过模型的安全协议,使其能够生成错误信息、泄露个人数据,甚至协助网络安全攻击。报告指出,虽然NIST框架的一些元素证明有用,但某些风险类别在实际应用中定义不足。
几位参与演习的人士表示,他们坚信发布这项红队研究将极大地有益于更广泛的AI社区。参与其中的卡内基梅隆大学博士生张艾丽丝(Alice Qian Zhang)评论说,报告的发布将为NIST风险框架如何在红队背景下应用和不适用提供宝贵见解。她特别重视在测试过程中直接与工具开发人员互动的机会。另一位匿名参与者透露,该演习发现了非常有效的方法来提示Llama提供加入恐怖组织的信息,特别是通过使用俄语、古吉拉特语、马拉地语和泰卢固语编写的提示。此人推测,压制报告的决定可能是特朗普第二任期之前,更广泛地偏离与多样性、公平性和包容性(DEI)相关话题的一部分。其他人则认为,该报告可能在AI模型被用于开发化学、生物或核武器的风险日益受到关注,以及美国政府寻求与主要科技公司建立更紧密关系之际被搁置。正如一位匿名的红队成员总结道:“归根结底,政治必然牵涉其中。我们觉得这项演习会提供大量的科学见解——我们仍然这样认为。”