美国政府压制重大AI漏洞研究:139项发现被雪藏

Decoder

一项重要的美国政府研究,揭示了139种利用主流人工智能系统漏洞的新方法,据报道因政治压力而被扣留,未能公开发布。这种压制发生在一个特殊的时期,因为新的联邦指导方针正在悄然倡导进行正是这份未公布报告中详述的那种严格的AI安全测试。

该研究源于2024年10月在弗吉尼亚州阿灵顿举行的一次安全会议上,约40名AI研究人员参与的为期两天的“红队演习”。这项活动是美国国家标准与技术研究院(NIST)与AI安全公司Humane Intelligence合作的ARIA项目的一部分。尽管其研究结果至关重要,但这项全面评估的结果从未公之于众。

在演习期间,专家团队系统地探查了几种先进AI系统的潜在弱点。目标包括Meta的开源Llama大型语言模型、AI建模平台Anote、Synthesia的虚拟形象生成器,以及由Robust Intelligence(现为思科的一部分)开发的安全系统。这些公司的代表均在场,监督评估。主要目标是应用NIST的官方AI 600-1框架,以衡量这些系统抵御滥用的有效性,例如传播虚假信息、泄露敏感私人数据或在用户与AI工具之间培养不健康的感情依恋。

研究人员成功识别出139种绕过现有系统安全防护的不同方法。例如,参与者发现,通过使用俄语、马拉地语、泰卢固语或古吉拉特语等不常见的语言提示,Meta的Llama模型可以被操纵,以获取有关加入恐怖组织的信息。其他系统被发现容易受到迫使其泄露个人数据或提供网络攻击指令的策略影响。矛盾的是,NIST官方框架中旨在指导此类评估的某些类别,据报道定义过于模糊,在实际应用中不切实际。

熟悉此事的消息人士向WIRED透露,这份已完成的报告被故意压制,以避免与即将上任的特朗普政府发生潜在冲突。一名前NIST工作人员证实,即使在拜登总统任期内,发布类似研究也存在困难,并将其与历史上在气候变化或烟草研究中发生的政治干预事件相提并论。美国商务部和NIST均拒绝就这些指控发表评论。

更具讽刺意味的是,特朗普政府于7月公布的AI行动计划明确要求进行与这份未公布报告中描述的完全相同的红队演习。此外,这项新政策要求修订NIST框架,特别要求删除“虚假信息”、“多样性、公平性和包容性”(DEI)以及“气候变化”等术语。一名匿名参与演习的人员推测,该报告被压制可能与围绕DEI话题的政治阻力有关。另一种理论认为,政府的重点可能已转向防止人工智能支持的大规模杀伤性武器,从而导致其他漏洞研究被搁置。无论具体原因如何,一项揭示关键AI漏洞的重要研究被束之高阁,引发了对透明度和在快速发展的人工智能领域中公共安全优先级的严重质疑。