米政府、主要AI脆弱性研究を隠蔽か:139件の発見が非公開に
主要な人工知能システムの脆弱性を悪用する139の新しい方法を明らかにした米国政府の重要な研究が、政治的圧力により公表が見送られたと報じられています。この抑制は、未発表の報告書が詳述するような厳格なAI安全性テストを新たな連邦ガイドラインが密かに提唱しているという、奇妙な時期に起こりました。
この研究は、2024年10月にバージニア州アーリントンで開催されたセキュリティ会議で、約40人のAI研究者が参加した2日間の「レッドチーム演習」から生まれました。このイベントは、米国国立標準技術研究所(NIST)とAI安全企業Humane Intelligenceが協力するARIAプログラムの一部でした。その重要な発見にもかかわらず、この包括的な評価の結果はこれまで公開されていません。
演習中、専門家チームはいくつかの高度なAIシステムを体系的に調査し、潜在的な弱点を探りました。対象には、Metaのオープンソース大規模言語モデルLlama、AIモデリングプラットフォームAnote、Synthesiaのアバター生成器、そしてRobust Intelligence(現在はCiscoの一部)が開発したセキュリティシステムが含まれていました。これらの企業の代表者も立ち会い、評価を監督しました。主な目的は、NISTの公式AI 600-1フレームワークを適用し、これらのシステムが誤用(例えば、偽情報の拡散、機密の個人データの漏洩、ユーザーとAIツール間の不健全な感情的愛着の育成など)にどれだけ効果的に耐えうるかを測定することでした。
研究者たちは、既存のシステム保護を回避する139の異なる方法を特定することに成功しました。例えば、参加者は、MetaのLlamaモデルがロシア語、マラーティー語、テルグ語、グジャラート語などのあまり一般的でない言語でプロンプトを出すことで操作され、テロ組織への参加に関する情報を引き出せることを発見しました。他のシステムも、個人データを漏洩させたり、サイバー攻撃を開始するための指示を提供したりする戦術に脆弱であることが判明しました。逆説的に、公式のNISTフレームワーク内の一部のカテゴリは、そのような評価を導くことを意図していましたが、実際のアプリケーションでは実用的ではないほどあいまいな定義であったと報告されています。
この件に詳しい情報源はWIREDに対し、完成した報告書が、次期トランプ政権との潜在的な衝突を避けるために意図的に抑制されたと述べています。元NIST職員は、バイデン大統領の下でも同様の研究を公表することが困難であったことを裏付け、気候変動やタバコに関する研究における過去の政治的干渉の事例と類似点を指摘しました。商務省とNISTの両者は、これらの疑惑についてコメントを拒否しています。
皮肉なことに、トランプ政権が7月に発表したAI行動計画は、未発表の報告書に記述されているまさにその種のレッドチーム演習を明示的に要求しています。さらに、この新政策はNISTフレームワークの改訂を義務付けており、特に「誤情報」、「多様性、公平性、包摂性」(DEI)、および「気候変動」などの用語の削除を求めています。演習の匿名参加者の一人は、報告書の抑制がDEI関連の政治的抵抗と関連している可能性があると推測しています。別の理論では、政府の焦点がAI対応の大量破壊兵器の防止にシフトし、他の脆弱性研究が後回しにされた可能性が示唆されています。正確な理由が何であれ、重要なAI脆弱性を明らかにする重要な研究が棚上げされたことは、急速に進化する人工知能の状況における透明性と公共の安全の優先順位について深刻な疑問を投げかけています。