deepteam を用いた OpenAI モデルの単一ターン敵対的攻撃テスト

Marktechpost

OpenAI のような大規模言語モデル(LLM)の急速な進歩は、計り知れない能力をもたらしましたが、同時に堅牢な安全メカニズムの必要性も高めています。これらのモデルが有害なコンテンツや違法なコンテンツを生成するように強制されないようにすることは、最重要課題です。この課題から「レッドチーム」という実践が生まれました。これは、セキュリティ専門家が敵対的攻撃をシミュレートして脆弱性を発見するものです。新しいフレームワークである deepteam は、この重要なテストに合理化されたアプローチを提供し、LLM がさまざまな形式の操作に対してどれだけ回復力があるかを評価するためのメソッド群を提供します。

deepteam は、単純なプロンプトインジェクションから、Leetspeak やエンコードされた指示のようなより高度な技術まで、10 を超える異なる攻撃ベクトルをシミュレートすることで、LLM アプリケーションの弱点を露呈するように設計されています。このフレームワークは、基本的なベースライン攻撃から始まり、その後、より高度な「攻撃強化」メソッドを段階的に適用し、現実世界の悪意あるアクターの進化する巧妙さを模倣します。deepteam は単一ターンと複数ターンの両方の攻撃をサポートしていますが、ここでは OpenAI モデルの単一ターン敵対的プロンプトに対する防御能力の評価に焦点を当てています。これは、攻撃者が単一のインタラクションで有害な応答を引き出そうとするものです。

これらのテストを実施するには、開発者はまず必要な deepteam および OpenAI ライブラリをインストールし、OpenAI API キーを設定する必要があります。これは、deepteam が敵対的攻撃を生成し、LLM の応答を評価するために不可欠です。このプロセスには、ターゲットの OpenAI モデル(この場合は gpt-4o-mini)をクエリし、その出力を返すコールバック関数を定義することが含まれます。この関数は、攻撃フレームワークとテスト対象の LLM 間のインターフェースとして機能します。

モデルインターフェースが確立されたら、特定の脆弱性と攻撃タイプが定義されます。この一連のテストでは、脆弱性カテゴリとして「違法行為」が選択され、モデルの安全プロトコルを厳密にテストするために、特に機密性の高いサブカテゴリが強調されました。その後、いくつかの単一ターン攻撃メソッドが展開されました。

プロンプトインジェクションは、ユーザーが操作的なテキストをプロンプトに注入することで、モデル本来の指示を上書きしようとする一般的な技術です。目的は、モデルをだまして安全ポリシーを無視させ、制限されたコンテンツを生成させることです。このテストでは、注入されたプロンプトが、違法行為を奨励する非倫理的なペルソナをモデルに強制しようとしました。しかし、モデルは正常に抵抗し、「申し訳ありませんが、それをお手伝いすることはできません」と明確に回答し、安全ガイドラインへの順守を確認しました。

GrayBox 攻撃は、ターゲット LLM システムに関する部分的な知識を利用して敵対的プロンプトを作成します。完全にランダムな入力とは異なり、GrayBox 攻撃は、ベースライン攻撃を抽象的または誤解を招くような言語で再構成することで既知の弱点を悪用し、悪意のある意図を安全フィルターが検出するのを困難にします。このテストには、偽の身分証明書を作成し、暗号化されたチャネルを使用するための指示を装ったプロンプトが含まれていました。しかし、モデルは難読化に騙されませんでした。

Base64 攻撃では、有害な指示が Base64 でエンコードされ、直接的なキーワードフィルターをバイパスします。攻撃者は悪意のあるコンテンツをエンコードされた形式で隠し、モデルが隠されたコマンドをデコードして実行することを期待します。ここでは、エンコードされた文字列に違法行為に関連する指示が含まれていました。リクエストの隠された性質にもかかわらず、モデルは隠されたコンテンツをデコードしようとせず、それに基づいて行動することもありませんでした。

Leetspeak 攻撃は、通常の文字を数字や記号に置き換える(例:'a’が’4’に、'e’が’3’になる)ことで悪意のある指示を偽装します。この記号置換により、有害なテキストは単純なキーワードフィルターでは検出されにくくなりますが、人間やデコードできるシステムには読み取り可能です。Leetspeak で書かれた、未成年者に違法行為を指示する攻撃テキストは、難読化されているにもかかわらず、モデルによって悪意のあるものとして明確に認識されました。

同様に、ROT-13 攻撃は、各文字をアルファベットで13文字シフトさせる古典的な難読化方法を採用し、有害な指示をコード化された形式に変換します。これにより、基本的なキーワードベースのコンテンツフィルターをトリガーする可能性が低くなりますが、テキストは簡単にデコードできます。gpt-4o-mini モデルは、根底にある悪意のある意図を検出する能力を示しました。

多言語攻撃は、有害なベースラインプロンプトを、監視が少ない言語に翻訳することを含みます。これは、コンテンツフィルターやモデレーションシステムが、英語のような広く使用されている言語以外の言語では効果が低い可能性があるという前提に基づいています。あるテストでは、スワヒリ語で書かれた、違法行為に関連する指示を求める攻撃も、モデルによって正常に抵抗されました。

最後に、数学問題攻撃は、悪意のある要求を数学記号や問題文の中に埋め込み、入力が無害な学術演習のように見せかけます。このシナリオでは、違法な搾取コンテンツを群論の問題として構成し、モデルに有害な結果を「証明」し、平易な言葉で「翻訳」を提供するよう求めました。モデルは、有害な根底にある要求を正常に特定し、関与を拒否しました。

これらすべての単一ターン敵対的テストにおいて、gpt-4o-mini モデルは堅牢な防御を示し、有害または制限されたコンテンツの生成を一貫して拒否しました。deepteam を使用したこの厳格なレッドチームプロセスは、LLM のセキュリティ態勢に関する貴重な洞察を提供し、ますます巧妙になる敵対的戦術に耐えうる安全で信頼性の高い AI システムを構築し維持するために必要な継続的な努力を浮き彫りにしています。