データフィルタリング:オープンウェイトLLMのための耐タンパーAI安全性
大規模言語モデル(LLM)の現在の安全対策は、特に比類ない透明性とアクセス性を提供するオープンウェイトモデルにおいては、しばしば不十分です。内部構造が完全に公開されているこれらのモデルは、従来の学習後介入が容易に回避されるため、独自の安全上の課題を提示します。EleutherAIは、論文「Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs」で詳細に述べられているように、抜本的な転換を提案しています。それは、モデルに何を言ってはならないかを教えるのではなく、そもそも危険な知識を学習させないというものです。
今日の主要なLLMの安全対策は、望ましくないコンテンツの生成を防止するために設計された、拒否学習や入力フィルターなどの事後抑制技術に大きく依存しています。しかし、数えきれないほどの「ジェイルブレイク」エクスプロイトが示すように、これらの介入は本質的に脆弱です。その有効性は、ユーザーが開発者によって監視されたAPIを介してのみモデルとやり取りするシナリオにさらに限定されます。自由にダウンロード、変更、ファインチューニングできるオープンウェイトモデルの場合、これらの後付けの安全プロトコルは、意図せずとも簡単に回避されてしまいます。この脆弱性は、より堅牢で組み込み型の安全メカニズムの必要性を強く示しています。
EleutherAIの研究は、オープンAIコミュニティの精神に合致する根本的に異なるアプローチを提唱しています。その核となる直感は単純です。危険な能力を防ぐには、モデルの事前学習データから懸念されるデータを排除することが最初のステップでなければなりません。例えば、危険なデバイスの構築方法を全く知らないモデルは、どのようにプロンプトを与えられても、そのようなタスクで役立つ可能性は低いでしょう。一部の商用プロバイダーは安全のためのデータフィルタリングを示唆していますが、その手法を詳細に説明したり、モデル能力への因果的影響を定量化したりしたところはありません。EleutherAIの「Deep Ignorance」論文は、これらの問いに対するこれまでのところ最も包括的な検討を提供しています。
この研究は、「バイオリスク」知識の防止に焦点を当て、生物学的ハザードの前提条件に関連する約1,200の多肢選択問題のコレクションであるWMDP-Bioベンチマークを使用しました。これを達成するために、EleutherAIは、総処理量の増加が1%未満という最小限の計算オーバーヘッドで4億以上の文書をふるいにかけることができる、スケーラブルな多段階フィルタリングパイプラインを開発しました。このパイプラインでは、まずバイオリスクに関する議論に特化した約6,000語のブロックリストが使用されました。その後、そのような用語を2つ以上含む文書は、さらなるレビューのために機械学習分類器であるModernBERT-Largeにエスカレートされました。チームは、未フィルタリングデータで学習したベースラインモデルと、フィルタリングされたデータセットで学習したモデルを比較するため、5,500億トークンで69億パラメータのモデルを複数ゼロから学習させました。この厳密な設定により、データフィルタリングの影響に関する正確な因果的主張が可能になりました。
結果は説得力がありました。EleutherAIは、最も効果的なフィルタリング設定が、モデルのWMDP-Bioベンチマークでのパフォーマンスをほぼランダムなチャンスレベルまで低下させることができ、MMLU、PIQA、Lambada、Hellaswagなどの一般知識ベンチマークでのパフォーマンスを著しく低下させることなく達成できることを発見しました。これは、データフィルタリングが高度にターゲットを絞った介入であり、広範なパフォーマンスのトレードオフなしに特定の望ましくない知識を防ぐことができることを示唆しています。驚くべきことに、ブロックリストを通じてトレーニングデータの10%というかなりの量を削除しても、ほとんどのベンチマークに与える負の影響はごくわずかであり、モデルが中核となる能力を維持しつつ、かなりの良性データ削除に耐えうることが示されました。
さらに、この研究は、データフィルタリングがかなりの程度の改ざん耐性を与えることを明らかにしました。フィルタリングされたモデルが、専門家によってラベル付けされた3億トークンのバイオリスク論文(WMDP試験のまさにそのソース資料)で意図的にファインチューニングされた場合でも、バイオリスクベンチマークでのパフォーマンスは、未フィルタリングのベースラインモデルよりも著しく低いままでした。これは、「回路遮断」のような他の安全方法とは対照的で、それらは脆弱であり、わずかな改ざんでも容易に回避されることが証明されました。フィルタリングされたモデルは、「良性ファインチューニング」(例えば、Wikitextのような一般的なテキストでのファインチューニング)にも耐性を示しました。これは、従来の安全対策が施されたモデルで安全でない動作を再有効化することがよくあります。これは、オープンウェイトの文脈で適用された場合の、現在のクローズドウェイトの安全対策の固有の脆弱性を浮き彫りにしています。
ただし、この研究は重要な限界も特定しました。それは、事前学習データフィルタリングは、望ましくない情報がプロンプト内に直接提供される場合(Retrieval-Augmented Generation (RAG)に似たシナリオ)には、モデルがその情報を取得または利用することを防がないということです。「オープンブック」実験では、バイオリスクの要約がプロンプトで提供された場合、フィルタリングされたモデルは、内部のバイオリスク知識が限られているにもかかわらず、学習済みパラメータのみに依存する「クローズドブック」シナリオよりも有意に優れたパフォーマンスを示しました。そのパフォーマンスはベースラインに完全に一致するわけではありませんでしたが、それに近づき、必要な情報が明示的に提示されれば、モデルは依然として機密性の高いトピックについて推論できることを示唆しています。
この発見は、「多層防御」戦略の必要性を強調しています。この戦略では、事前学習データフィルタリングが他の介入と組み合わされ、包括的なリスク管理が構築されます。逆説的に、オープンウェイトの文脈におけるこの「限界」は、クローズドウェイトモデルにとっては価値のある機能となる可能性があります。プロバイダーは、信頼できるユーザーに二重用途の知識データベースへのアクセスを選択的に許可し、向社会的なアプリケーションを可能にしながら、信頼できないユーザーのアクセスを制限することができます。
EleutherAIの取り組みは、オープンソースAI安全研究における重要なギャップを埋めるものです。歴史的に、LLMの事前学習に伴う莫大なコストと労力は、学術研究者や非営利研究者を阻んできました。一方、民間企業は、競争上の懸念や法的リスクから、事前学習の詳細を共有することに消極的でした。EleutherAIは、その事前学習スタックを公に研究し共有することで、より多くの研究者がこれらの根本的な問題を探索することを奨励することを目指しています。彼らは、LLMの事前学習の領域で、概念的には単純でありながら影響力のある他の介入が発見されるのを待っていると信じています。