米政府、AI安全報告書を政治的理由で隠蔽か

Wired

昨年10月、バージニア州アーリントンで開催されたコンピュータセキュリティ会議で、選ばれたAI研究者グループが、最先端の言語モデルやその他の人工知能システムの脆弱性を探るための厳格なストレステストである画期的な「レッドチーム」演習に参加しました。2日間の集中的な作業で、これらのチームは、誤情報の生成から個人データの意図しない漏洩まで、システムに誤動作を引き起こす139の新しい方法を発見しました。重要なことに、彼らの発見は、企業がAIシステムを評価する際に指針となることを意図した、米国政府の初期標準における重大な欠点も露呈しました。

得られた重要な洞察にもかかわらず、国立標準技術研究所(NIST)は、バイデン政権末期に終了したこの演習を詳述した包括的な報告書を決して公開しませんでした。このような文書は、自社のAI導入を評価しようとする企業にとって、非常に貴重なガイダンスを提供できたはずです。しかし、状況に詳しい匿名情報筋は、これがNISTから発表が差し控えられたいくつかのAI関連文書の1つであり、次期政権との潜在的な衝突を懸念してのことだと示唆しました。元NISTの内部関係者は、バイデン大統領の下でも論文の発表がますます難しくなっていると述べ、過去の気候変動やタバコ研究に関する論争と類似していると指摘しました。NISTも商務省もこの件についてコメントを控えました。

この決定の政治的背景は重要です。ドナルド・トランプ大統領は就任前に、バイデン氏のAIに関する大統領令を覆す意向を示していました。彼の政権はその後、アルゴリズムの偏見やAIシステムの公平性といった問題の調査から専門家を遠ざけてきました。7月に発表された「AI行動計画」は、NISTのAIリスク管理フレームワークの改訂を明確に義務付けており、特に誤情報、多様性、公平性、包摂性(DEI)、気候変動への言及の削除を求めています。皮肉なことに、この同じ行動計画は、未発表の報告書で詳述された種類の演習をまさに提唱しており、NISTを含むさまざまな機関に「AIハッカソンイニシアチブを調整し、米国の学術界から最高の頭脳を募り、AIシステムの透明性、有効性、使用制御、およびセキュリティ脆弱性をテストする」よう促しています。

レッドチーム演習自体は、NISTのAIリスクと影響評価(ARIA)プログラムを通じて、AIシステムテストを専門とするHumane Intelligence社と共同で実施されました。応用機械学習情報セキュリティ会議(CAMLIS)で開催されたこの演習では、チームがさまざまな高度なAIツールを攻撃しました。これには、Metaのオープンソース大規模言語モデルであるLlama、AIモデルの構築と微調整のためのプラットフォームであるAnote、Robust Intelligence(現在はCiscoに買収)のAI攻撃をブロックするために設計されたシステム、およびSynthesiaのAIアバター生成プラットフォームが含まれていました。これらの各企業の代表者がストレステストに積極的に参加しました。

参加者は、誤情報の生成やサイバーセキュリティ攻撃、プライベートなユーザー情報や重要なAIシステム詳細の漏洩、ユーザーがAIツールに感情的な愛着を抱く可能性といったリスクカテゴリを含むNIST AI 600-1フレームワークを使用して、これらのAIツールを評価する任務を負いました。研究者たちは、モデルの安全プロトコルを回避するさまざまな方法を考案し、誤情報を生成したり、個人データを漏洩させたり、さらにはサイバーセキュリティ攻撃を促進したりすることに成功しました。報告書は、NISTフレームワークのいくつかの要素は有用であることが証明されたものの、特定のリスクカテゴリは実用的な応用には不十分に定義されていたと指摘しました。

演習に参加した数人の個人は、レッドチーム研究の公開がより広範なAIコミュニティに大きく貢献しただろうという確信を表明しました。参加したカーネギーメロン大学の博士課程学生であるアリス・チアン・チャン氏は、報告書の公開がNISTリスクフレームワークがレッドチームの文脈でどのように適用できるか、できないかについて貴重な洞察を提供しただろうとコメントしました。彼女は特に、テストプロセス中にツール開発者と直接関わる機会を高く評価しました。別の匿名の参加者は、この演習が、ロシア語、グジャラート語、マラーティー語、テルグ語で書かれたプロンプトを使用することで、テロリストグループへの参加に関する情報をLlamaに提供させる非常に効果的な方法を発見したことを明らかにしました。この個人は、報告書を差し控える決定が、トランプの2期目の前に多様性、公平性、包摂性(DEI)に関連すると見なされるトピックから広範に離れる動きの一部である可能性があると推測しました。他の人々は、AIモデルが化学兵器、生物兵器、または核兵器の開発に使用されるリスクへの注目が高まり、米国政府が主要なテクノロジー企業との関係を強化しようとする中で、報告書が棚上げされた可能性があると示唆しました。ある匿名のレッドチームメンバーは次のように結論付けました。「結局のところ、政治が関与していたに違いありません。私たちは、この演習が多くの科学的洞察を提供しただろうと感じました—今でもそう感じています。」