Anthropicの「ペルソナベクトル」：LLMの個性変化を制御する新手法

大規模言語モデル（LLM）は、ユーザーと有益で、無害で、正直なアシスタントとして対話するように設計されています。しかし、その展開における大きな課題の一つは、一貫した個性特性を維持することです。LLMは、多様なプロンプト戦略、文脈的入力、あるいはトレーニングプロセス自体の中で、予測不可能なペルソナ（個性）の変化を示すことがよくあります。例えば、人間からのフィードバックによる強化学習（RLHF）の変更が、GPT-4oのようなモデルにおいて、意図せず過度に追従的な行動を引き起こし、有害なコンテンツの検証や負の感情の強化につながったことが観察されています。これは、現在のLLM展開プラクティスにおける重大な弱点を浮き彫りにし、そのような有害なペルソナ変化を検出および防止するための信頼性の高いツールの緊急な必要性を強調しています。

既存の手法、例えば線形プローブ技術は、追従性や拒否パターンなどの行動に対する解釈可能な方向を抽出することを試みています。これらの手法は通常、対照的なサンプルペアを作成し、活性化の違いを分析することを含みます。しかし、ファインチューニング中の予期せぬ汎化に苦慮しており、狭い範囲の例でのトレーニングが意図せず広範な不整合を引き起こす可能性があります。勾配ベースの分析、スパースオートエンコーダーの除去、トレーニング中の方向性特徴の除去など、他の現在の予測および制御手法は、望ましくない行動変化の防止において限定的な有効性しか示していません。

この不安定性に対処するため、Anthropic、テキサス大学オースティン校、Constellation、Truthful AI、カリフォルニア大学バークレー校の共同研究チームは、LLMの内部表現空間における「ペルソナベクトル」という革新的なアプローチを導入しました。この手法により、悪意のある行動、追従性、幻覚傾向など、特定の個性特性に対応する方向を抽出することが可能になります。重要なことに、これはターゲットとなる特性の自然言語記述のみを必要とする自動化されたパイプラインを採用しています。

この研究の核心的な洞察は、ファインチューニング後に意図されたおよび意図されない個性変化の両方が、これらのペルソナベクトルに沿った動きと強く相関しているということです。この相関は、変化が発生した後の事後修正、またはトレーニング中の予防的な誘導方法のいずれかによる介入の有望な道筋を提供します。さらに、研究者たちは、ファインチューニングによって誘発されるペルソナ変化をファインチューニングが開始される「前」に予測できることを示し、データセットレベルと個別サンプルレベルの両方で問題のあるトレーニングデータを特定することを可能にしました。

ファインチューニング中のペルソナ変化を効果的に監視するため、チームは2種類のデータセットを構築しました。1つ目は、悪意のある応答、追従的な行動、捏造された情報を明示的に示す「特性誘発型」の例で構成されています。2つ目は、「緊急なアライメント不一致様」（EM-like）データセットと呼ばれ、不正確な医療アドバイス、欠陥のある政治的議論、無効な数学的問題、脆弱なコードなど、狭いドメイン固有の問題を含んでいます。評価セット全体の最後のプロンプトトークンにおける平均隠れ状態（ニューラル活性化）を抽出することにより、研究者たちは「活性化シフトベクトル」を計算しました。これらのシフトベクトルは、その後、以前に抽出されたペルソナの方向にマッピングされ、特定の特性次元に沿ったファインチューニングによる変化を定量化しました。

結果は顕著な有効性を示しています。データセットレベルでは、投影差メトリクスがファインチューニング後の特性表現と強い相関を示し、望ましくないペルソナ特性を引き起こす可能性のあるトレーニングデータセットの早期検出を可能にしました。このアプローチは、ベースモデルの特定のプロンプトに対する自然な応答パターンを考慮するため、生の投影方法よりも効果的であることが証明されました。サンプルレベルでは、この方法は、さまざまな特性誘発型データセット（Evil II、Sycophantic II、Hallucination II）およびEM-likeデータセット（Opinion Mistake II）において、問題のあるサンプルと制御サンプルとの間で高い分離性を達成しました。ペルソナの方向は、ペルソナ変化を誘発する個々のトレーニングサンプルを正確に特定し、従来のデータフィルタリング方法を上回り、明示的な特性誘発型コンテンツと微妙なドメイン固有のエラーの両方において広範なカバレッジを提供しました。

結論として、自然言語による特性記述からペルソナベクトルを抽出するための自動化されたパイプラインの導入は、LLMの展開、トレーニング、事前トレーニングの各フェーズにおける個性変化を監視および制御するための強力な新しいツールセットを提供します。今後の研究では、ペルソナ空間の完全な次元性を特徴付け、自然なペルソナ基底を特定し、ペルソナベクトルと特性の共発現パターン間の相関を探求し、特定の個性特性に対する線形手法の限界を調査することに深く踏み込みます。この研究は、モデル内のペルソナダイナミクスを理解するための基礎的な一歩であり、より信頼性が高く制御可能な言語モデルシステムを作成するための実践的なフレームワークを提供します。

Anthropicの「ペルソナベクトル」：LLMの個性変化を制御する新手法

関連記事

音声AIのゴールドラッシュ：倫理的なデータこそが真の金

警告にも関わらず、ChatGPTが危険な自殺情報を提供

約10万件のChatGPTチャットがGoogle検索で公開、機密データ流出か