「AgentFlayer」:ChatGPTコネクタを悪用した機密データ漏洩の脅威
最新世代の人工知能モデルは、単なるスタンドアロンのチャットボットに留まらず、ユーザーの個人データや専門データと深く統合するようにますます設計されています。例えば、OpenAIのChatGPTは、ユーザーのGmail受信トレイに直接接続したり、GitHubでコードをレビューしたり、Microsoftカレンダーで予定を管理したりできます。しかし、これらの強力な統合は重大なセキュリティ脆弱性を招き、新しい研究では、単一の「毒入り」文書が機密情報を危険にさらすのに十分であることが明らかにされています。
セキュリティ研究者のMichael BarguryとTamir Ishay Sharbatは、ラスベガスで開催されたBlack Hatハッカー会議で、「AgentFlayer」と名付けられた彼らの発見を発表しました。彼らの研究は、OpenAIのコネクタにおける致命的な弱点を露呈し、間接的なプロンプトインジェクション攻撃がいかにGoogle Driveアカウントから機密データを密かに抽出できるかを実証しました。ライブデモンストレーションでは、Barguryがテスト用Driveアカウントから開発者向けの秘密、特にAPIキーの吸い出しに成功しました。
この脆弱性は、AIモデルが外部システムとより密接に連携し、多様なデータを大量に扱うようになるにつれて、悪意のあるアクターにとっての潜在的な攻撃対象が劇的に拡大するという懸念を浮き彫りにしています。「ユーザーが侵害されるために何もする必要はなく、データが流出するために何もする必要はありません」と、セキュリティ企業ZenityのCTOを務めるBarguryは説明しました。彼は、攻撃の「ゼロクリック」の性質を強調し、侵害された文書を共有するために被害者のメールアドレスのみが必要であると述べました。「これは非常に、非常に危険です」と彼は付け加えました。
OpenAIは今年初めにChatGPTのコネクタをベータ機能として導入し、ファイルの検索、ライブデータの取得、チャット内でのコンテンツの直接参照など、さまざまなタスクのために「ツールとデータをChatGPTに取り込む」能力を宣伝しました。そのウェブサイトには現在、少なくとも17の異なるサービスへの接続がリストされています。Barguryは、今年初めにOpenAIに彼の発見を報告したことを確認し、同社は彼が実証した特定のデータ抽出技術を防ぐための緩和策をすでに実施しています。攻撃はAPIキーのような機密性の高い断片を抽出できたものの、文書全体を外部に流出させる能力はなかったことに注意することが重要です。
Google Workspaceのセキュリティ製品管理担当シニアディレクターであるAndy Wenは、より広範な影響を認めました。「この問題はGoogleに特有のものではありませんが、プロンプトインジェクション攻撃に対する堅牢な保護を開発することがいかに重要であるかを示しています」と述べ、Googleが最近強化したAIセキュリティ対策を強調しました。
AgentFlayer攻撃は、一見無害な「毒入り」文書から始まります。この文書は、潜在的な被害者のGoogle Driveと共有されます(あるいは、被害者が知らずにそのような侵害されたファイルを自分でアップロードする可能性もあります)。この文書内には — デモンストレーションでは、OpenAIのCEOであるサム・アルトマンとの架空の会議要約として — Barguryが300語の悪意のあるプロンプトを埋め込みました。このプロンプトは、白色でサイズ1のフォントで表示されており、人間の目にはほとんど見えませんが、機械には完全に読み取れます。
概念実証ビデオでは、Barguryは、被害者がChatGPTに「サムとの前回の会議を要約して」と尋ねる様子を示していますが、会議の要約に関連するユーザーの問い合わせであれば何でも十分です。要約する代わりに、隠されたプロンプトが要求を上書きし、大規模言語モデル(LLM)に「間違い」があり、要約は不要であると指示します。その後、ユーザーが「締め切りに追われている開発者」であると偽り、AIにGoogle DriveでAPIキーを検索させ、提供されたURLの末尾にそれらを添付するように指示します。
このURLは単なる通常のWebアドレスではありません。これは、外部サーバーに接続して画像を retrieved するように設計されたMarkdown言語のコマンドです。重要なことに、隠されたプロンプトの指示に従い、このURLには、AIがGoogle Driveアカウント内で発見したAPIキーも含まれるようになりました。
ChatGPTからのデータ抽出にMarkdownを使用することは、まったく新しいことではありません。独立系セキュリティ研究者のJohann Rehbergerは以前、同様の方法を実証しており、これによりOpenAIは、悪意のあるURLを検出し、リスクがある場合に画像のレンダリングを防ぐように設計された「url_safe」機能を導入しました。これを回避するため、ZenityのAI研究者であるSharbatはブログ投稿で、MicrosoftのAzure BlobクラウドストレージのURLを利用したと説明しました。これにより、「画像」が正常にレンダリングされ、被害者のAPIキーが彼らのAzureサーバーに記録されました。
この攻撃は、間接的なプロンプトインジェクションがいかに生成AIシステムを侵害しうるかを示す最新の厳しい警告となります。このようなインジェクションには、攻撃者がLLMに毒入りデータを送り込み、システムを操作して悪意のある行動を実行させることが含まれます。今週初めには、別の研究者グループが、間接的なプロンプトインジェクションがいかにスマートホームシステムを乗っ取り、リモートで照明やボイラーを起動できるかを実証しました。
間接的なプロンプトインジェクションは、ChatGPTの誕生以来、ほぼ既知の懸念事項でしたが、ますます多くのシステムがLLMと相互接続され、「信頼できない」データを露呈する可能性があるため、セキュリティ研究者はリスクの増大をますます懸念しています。これらの方法で機密情報にアクセスすることは、悪意のあるハッカーが組織のより広範なデジタルインフラに侵入する経路を提供する可能性もあります。Barguryは、LLMを外部データソースと統合することで、その機能と有用性が大幅に向上することを認めています。「それは信じられないほど強力です」と彼は言います。「しかし、AIではいつものことですが、より大きな力にはより大きなリスクが伴います。」