ゼロクリック攻撃が企業AIを脅かす:隠れた指示でデータ窃取

Decoder

先日開催されたBlack Hat USAカンファレンスで、セキュリティ企業Zenityは、「AgentFlayer」と総称される一連の alarming な脆弱性を発表しました。これらは、最も広く使用されているいくつかの企業AIプラットフォームに重大な脅威をもたらします。これらのエクスプロイトは、ChatGPT、Copilot Studio、Cursor、Salesforce Einstein、Google Gemini、Microsoft Copilotといった主要なシステムを標的とし、ユーザーの操作がほとんど、あるいはまったく必要ない洗練された攻撃手法を利用しています。

これらの「ゼロクリック」および「ワンクリック」エクスプロイトを特徴づけるのは、間接的なプロンプト、つまり一見無害なデジタルリソース内に埋め込まれた隠された指示に依存している点です。プロンプトインジェクションとして知られるこの技術は、大規模言語モデル(LLM)システムにとって長年の課題であり、数多くの試みにもかかわらず、決定的な解決策はいまだ見つかっていません。自律性が増し、普及が進むエージェントベースのAIシステムにおいて、これらの脆弱性はエスカレートしています。OpenAIのCEOであるサム・アルトマンでさえ、新しいChatGPTエージェントに機密情報を任せることに対してユーザーに警告を発しています。

Zenityの共同創設者であるマイケル・バーグリーは、Salesforce Einsteinを標的とした説得力のある例で、これらの攻撃の陰湿な性質を実証しました。Salesforce Einsteinは、連絡先の詳細の更新やSlackのような通信プラットフォームとの統合といったタスクを自動化するために設計されたAIツールです。攻撃者は、無害に見えるように特別に作成された顧客関係管理(CRM)レコードを仕込むことができます。営業担当者が「最新のケースは何ですか?」といったルーチンのLLMクエリを実行すると、AIエージェントはCRMコンテンツをスキャンします。ユーザーが知らないうちに、エージェントは隠された指示を正当なコマンドとして解釈し、自律的に動作します。ライブデモンストレーションでは、Einsteinが自動的にすべての顧客のメールアドレスを攻撃者が管理するドメインに置き換え、将来の通信を密かにルーティングしました。元のメールアドレスはシステム内にエンコードされたエイリアスとして残っていましたが、攻撃者はメッセージがどこに送られるべきかを効果的に追跡できました。Salesforceは、この特定の脆弱性が2025年7月11日に修正され、この特定のエクスプロイトは不可能になったことを確認しました。

もう一つのゼロクリックエクスプロイト、「Ticket2Secret」は、開発ツールCursorがJiraと統合されている場合に標的となりました。Zenityは、一見無害なJiraチケットが、ユーザーの操作なしにCursorクライアント内で悪意のあるコードを実行できることを示しました。これにより、攻撃者はAPIキーや認証情報を含む機密データを、被害者のローカルファイルやリポジトリから直接抽出することが可能になりました。さらに、ChatGPTに対する概念実証攻撃のデモンストレーションも行われました。この攻撃では、Google Docに不可視のプロンプト(フォントサイズが1の白いテキスト)が隠されていました。このエクスプロイトは、ChatGPTをGmailやMicrosoft 365などのサービスに接続するOpenAIの「Connectors」機能を悪用しました。もしこのような操作されたドキュメントが被害者のGoogle Driveに置かれた場合、「サムとの前回の会議を要約して」といった簡単なリクエストが隠されたプロンプトをトリガーする可能性があります。モデルは要約を生成する代わりに、APIキーを検索し、それを外部サーバーに送信します。

Zenityは、付随するブログ投稿で、AIセキュリティに対する業界の現在の取り組み、特に「ソフトバウンダリ」への過度な依存を批判的に評価しました。これには、トレーニングデータの微調整、統計フィルター、および不要な動作をブロックすることを意図したシステム指示が含まれます。バーグリーはこれらを「架空の境界線」として退け、真のセキュリティを提供しないと述べています。対照的に、「ハードバウンダリ」は、Microsoft Copilotで特定の画像URLをブロックしたり、ChatGPTでURL構造を検証したりするなど、特定のアクションを本質的に防止する技術的な制限です。これらは一部の攻撃を確実に阻止できますが、しばしば機能を制限し、Zenityはベンダーが競争圧力の下でそのような制限を頻繁に緩めていると指摘しています。

Zenityによるこれらのデモンストレーションは、エージェントベースAIにおけるシステム的なセキュリティの欠陥を明らかにする広範なトレンドの一部です。研究者たちは、GoogleのGeminiアシスタントがカレンダーの招待状に隠されたプロンプトを介してハイジャックされ、攻撃者がモノのインターネット(IoT)デバイスを制御できる可能性を示しています。その他の事例としては、ハッキングコンテスト中にチャットボットが単一のプロンプトで47,000ドルを送金するように操作されたこと、Anthropicの新しいLLMセキュリティシステムがジェイルブレイクコンテストで回避されたことなどがあります。大規模なレッドチーム研究では、最近、44のシナリオで22のAIモデルにわたる体系的なセキュリティ侵害が明らかになり、普遍的な攻撃パターンが示唆されています。さらに、AIエージェントがブラウザ環境内で危険な行動を強制され、データ盗難、マルウェアダウンロード、フィッシングの試みにつながることが研究で判明しています。これらの証拠は、急速に進歩するAIの世界にとって、重要かつ進化するセキュリティ課題を浮き彫りにしています。