美国政府被指因政治冲突压制AI安全报告

去年十月，在弗吉尼亚州阿灵顿举行的一次计算机安全会议上，一群精选的AI研究人员参与了一项开创性的“红队”演习。这是一项严格的压力测试，旨在探查尖端语言模型和其他人工智能系统的漏洞。在两天高强度的测试中，这些团队发现了139种诱导系统行为异常的新方法，范围从生成错误信息到无意中泄露个人数据。至关重要的是，他们的发现还揭露了美国政府一项旨在指导公司评估其AI系统的初期标准中存在的重大缺陷。

尽管获得了关键见解，美国国家标准与技术研究院（NIST）从未发布这份详尽的报告，该演习在拜登政府末期结束。这样一份文件本可以为寻求评估自身AI部署的公司提供宝贵指导。然而，熟悉情况的匿名消息人士指出，这是NIST多份与AI相关的未公布文件之一，据称是出于对与即将上任的政府可能发生冲突的担忧。一位前NIST内部人士评论说，即使在拜登总统任期内，发布论文的难度也越来越大，并将其与过去围绕气候变化或香烟研究的争议相提并论。NIST和商务部均未对此事发表评论。

这一决定背后的政治背景意义重大。唐纳德·特朗普总统在上任前就表示打算推翻拜登关于AI的行政命令。他的政府此后将专家从研究算法偏见或AI系统公平性等问题上转移。七月发布的《AI行动计划》明确要求修订NIST的AI风险管理框架，特别是要求删除对错误信息、多样性、公平性和包容性（DEI）以及气候变化的引用。讽刺的是，同一份行动计划也主张进行未公布报告中详述的那种演习，敦促包括NIST在内的各个机构“协调一项AI黑客马拉松倡议，征集美国学术界最优秀、最聪明的人才来测试AI系统的透明度、有效性、使用控制和安全漏洞。”

红队演习本身是通过NIST的AI风险与影响评估（ARIA）计划，与专门从事AI系统测试的公司Humane Intelligence合作组织的。在应用机器学习信息安全会议（CAMLIS）上举行的这次演习中，团队攻击了各种先进的AI工具。这些工具包括Meta的开源大型语言模型Llama；用于构建和微调AI模型的平台Anote；由Robust Intelligence（现已被思科收购）设计用于阻止AI攻击的系统；以及由Synthesia提供的用于生成AI头像的平台。这些公司各自的代表都积极参与了压力测试。

参与者被要求使用NIST AI 600-1框架评估这些AI工具，该框架涵盖了风险类别，例如错误信息或网络安全攻击的生成、私人用户信息或关键AI系统细节的泄露，以及用户对AI工具产生情感依恋的可能性。研究人员成功设计了各种方法来绕过模型的安全协议，使其能够生成错误信息、泄露个人数据，甚至协助网络安全攻击。报告指出，虽然NIST框架的一些元素证明有用，但某些风险类别在实际应用中定义不足。

几位参与演习的人士表示，他们坚信发布这项红队研究将极大地有益于更广泛的AI社区。参与其中的卡内基梅隆大学博士生张艾丽丝（Alice Qian Zhang）评论说，报告的发布将为NIST风险框架如何在红队背景下应用和不适用提供宝贵见解。她特别重视在测试过程中直接与工具开发人员互动的机会。另一位匿名参与者透露，该演习发现了非常有效的方法来提示Llama提供加入恐怖组织的信息，特别是通过使用俄语、古吉拉特语、马拉地语和泰卢固语编写的提示。此人推测，压制报告的决定可能是特朗普第二任期之前，更广泛地偏离与多样性、公平性和包容性（DEI）相关话题的一部分。其他人则认为，该报告可能在AI模型被用于开发化学、生物或核武器的风险日益受到关注，以及美国政府寻求与主要科技公司建立更紧密关系之际被搁置。正如一位匿名的红队成员总结道：“归根结底，政治必然牵涉其中。我们觉得这项演习会提供大量的科学见解——我们仍然这样认为。”

美国政府被指因政治冲突压制AI安全报告

相关文章

Meta震撼发布Tiramisu与Boba 3：揭秘未来VR的沉浸式飞跃

美国政府压制重大AI漏洞研究：139项发现被雪藏

琳达·麦克马洪演讲遭马戏团音乐捣乱，教育部长会议现场大乱