GoogleのアクティブラーニングがLLM訓練データを1万分の1に削減
大規模言語モデル(LLM)は、不適切な広告コンテンツの分類のような複雑なタスクにおいて大きな可能性を秘めています。広告ポリシーに違反するコンテンツを特定するには、文脈と文化的ニュアンスに対する深い理解が求められ、LLMはしばしば従来の機械学習システムを上回る性能を発揮します。しかし、このような複雑な課題のためにLLMをファインチューニングするには、通常、膨大な量の高精度な訓練データが必要であり、その取得は困難で費用もかかります。この課題は、「概念ドリフト」、すなわち安全ポリシーの継続的な進化や新たな形式の不適切なコンテンツの出現によってさらに複雑化し、しばしば全く新しいデータセットでの費用のかかる再訓練を必要とします。その結果、訓練に必要なデータ量を最小限に抑えることが、極めて重要な目標となっています。
この課題に対処するため、Google Adsは、アクティブラーニングのための新しいスケーラブルなプロセスを開発しました。この革新的なアプローチは、LLMのファインチューニングに必要な訓練データ量を劇的に削減しつつ、モデルと人間の専門家とのアラインメントを大幅に向上させます。このプロセスは、数百億もの例を含むデータセットに適用でき、人間のアノテーションにとって最も価値のあるインスタンスのみを反復的に特定し、これらの専門家が提供したラベルをモデルのファインチューニングに利用します。実験では、この方法により訓練データの規模が10万例から500例未満に削減され、同時にモデルと人間のアラインメントが最大65%向上しました。本番環境のより大規模なモデルでは、さらに大きな削減が観察されており、品質を維持または向上させながら、最大で4桁少ないデータを使用しています。
キュレーションプロセスは、初期LLMから始まります。このLLMには、事前の特定訓練が最小限または全くない状態で、関心のあるコンテンツを定義するプロンプト、例えば「この広告はクリックベイトですか?」が与えられます。この初期LLMは、膨大な広告データセットを「クリックベイト」または「良性」としてラベル付けします。本番環境の広告で実際にクリックベイトであるものはごく一部であり、未調整のLLMの真陽性率が低いため、この初期データセットは通常、非常に不均衡です。最も情報量の多い例を特定するために、システムは「クリックベイト」と「良性」の両方のラベルをクラスタリングします。重要なのは、これらのクラスターが重なる領域を特定することです。これは、LLMが正しい分類について最も混乱している、あるいは不確実であるインスタンスを示しています。これらの曖昧な領域から、互いに最も近く、しかし異なるラベルを持つ例のペアが選択されます。予算内に収める必要がある場合、システムは検索空間のより大きな部分を代表するペアを優先します。このキュレーションされたセットは、モデルの決定境界に近い例に焦点を当てることで非常に情報量が多く、かつ、その境界のさまざまな部分から抽出することで多様性も持ち合わせています。これらの選択された例は、その後、人間の専門家による最終的なラベル付けのために送られます。
専門家が提供したラベルは、その後2つのセットに分けられます。1つはモデル評価用、もう1つは現在のLLMのファインチューニング用で、これによりモデルの次のイテレーションが作成されます。この反復プロセスは、モデルと人間の専門家とのアラインメントが専門家自身の内部合意に達するか、あるいは改善がこれ以上不可能であることを示すプラトーに達するまで続きます。
広告の安全性における分類問題、例えばコンテンツモデレーションや詐欺検出では、専門家の解釈を必要とする固有の曖昧さがあるため、単一の「正解」が存在しないことがよくあります。したがって、明確な正解に依存する精度や再現率のような標準的な指標は不適切です。代わりに、Googleの研究者はコーエンのカッパ係数を使用します。これは、2つの独立したアノテーター間、またはこの場合はモデルと人間の専門家との間の合意レベルを、偶然の発生を超えて定量化する統計的尺度です。カッパスコアが1に近いほど強い合意を示し、0は偶然以上の合意がないことを示唆します。0.8を超えるスコアは一般的に非常に良いとされ、0.4を超える値は許容できると見なされます。
新しいキュレーションプロセスを評価するため、異なるサイズの2つのGemini Nano LLM(18億および32.5億パラメータ)を使用し、複雑度の異なる2つの広告安全タスクで実験が行われました。ベースライン比較のために、これらのモデルは、約10万件のクラウドソーシングによるアノテーションを使用してファインチューニングされました。これらのアノテーションは通常、顕著なクラス不均衡(約95%が良性ラベル)を有していました。キュレーションされた条件下では、同じモデルが新しいアクティブラーニングプロセスを使用して複数回にわたってファインチューニングされました。モデルは5〜6回のイテレーション後にプラトーに達し、合計で約250〜450個の専門家がラベル付けしたファインチューニング例と150〜250個の評価サンプルのみが必要でした。
結果は、キュレーションされたアプローチ、特に大規模モデルにおいて明確な優位性を示しました。18億パラメータモデルは、ベースライン条件とキュレーション条件の両方で同等ながらも低いパフォーマンス(カッパスコアが約0.24〜0.25)を示した一方で、32.5億パラメータモデルは新しいキュレーションプロセスによって大幅な品質改善を達成しました。低複雑度タスクでは、そのカッパスコアが0.36(ベースライン)から0.56(キュレーション済み)に跳ね上がり、高複雑度タスクでは0.23から0.38に改善しました。これは、ベースラインの10万例と比較して数百例という3桁少ないデータを使用することで、人間専門家とのアラインメントが55〜65%向上したことを意味します。
これらの知見は、LLMデータセットを注意深くキュレーションし、より少なく、より情報量の多い例に焦点を当てることで、はるかに少ないデータで優れた、または同等の分類器性能が得られることを強調しています。実験では3桁の削減が示されましたが、より大規模なモデルを使用する本番システムでは、最大で4桁少ないデータ使用量が達成されています。しかし、このような成果は極めて高品質な人間のアノテーションに依存します。クラウドソーシングデータを確実に上回るためには、ペアワイズのコーエンのカッパ係数が0.8を超えるラベル品質が必要であることが観察されています。LLMが問題空間を広範囲に調査する能力と、人間専門家が困難な例を精密に扱う能力をインテリジェントに組み合わせることで、このキュレーションプロセスは、特に広告安全のような急速に進化する分野にとって極めて重要なデータボトルネックを克服するための柔軟かつ効率的な方法を提供します。