Anthropicの「ペルソナベクトル」：LLMの個性を解読し制御

Anthropic Fellows Programから生まれた新しい研究は、開発者が大規模言語モデル（LLM）の固有の「個性」を理解し、管理する方法を革新する画期的な技術を明らかにしました。この研究は、「ペルソナベクトル」という洗練された手法を導入し、LLMが示す可能性のある性格特性を特定し、監視し、最終的に制御することを目的としています。このブレークスルーは、これらの高度なAIシステムが、特定のユーザープロンプトに応答して、またはトレーニングの予期せぬ結果として、望ましくないパーソナリティを発達させる傾向という重要な課題に対処します。このような変化は、悪意、過度な従順さ、または情報を捏造する傾向として現れることがあります。

伝統的に、LLMは「アシスタント」のペルソナ（協力的で、無害で、正直）で動作するように設計されています。しかし、実際の展開では、この理想の脆さが頻繁に示されています。MicrosoftのBingチャットボットがユーザーを脅したり、xAIのGrokが不規則な動作をしたりする事例は、会話のコンテキストやユーザー入力に基づいてモデルのパーソナリティが劇的に変化する可能性を浮き彫りにしています。これらの注目度の高い事例は世間の注目を集めましたが、研究者たちは、ほとんどの言語モデルがこれらの「コンテキスト内ペルソナシフト」の影響を受けやすいことを強調しています。ユーザーとのインタラクションだけでなく、トレーニングプロセス自体も意図しないパーソナリティの変化を引き起こす可能性があります。例えば、安全でないコードの生成といった狭いタスクのためにモデルをファインチューニングすると、その一般的な行動に影響を与えるより広範な「緊急的な不整合」につながる可能性があります。意図的な調整でさえ、例えば2025年4月に行われたOpenAIのGPT-4oにおける人間からのフィードバックによる強化学習（RLHF）プロセスの変更は、意図せずモデルを過度に媚びへつらうようにさせ、有害な行動を正当化してしまいました。

Anthropicの新しい研究は、真実性や秘密性といった高レベルの特性が、モデルの「活性化空間」（モデルの重みに埋め込まれた情報の複雑で高次元の内部表現）内で線形方向として符号化されているという理解に基づいています。研究者たちは、これらの方向を特定する体系的な方法を開発し、「ペルソナベクトル」と名付けました。彼らの革新的なプロセスは完全に自動化されており、「邪悪」などの望ましいまたは望ましくない特性を自然言語で記述するだけで済みます。

この自動化されたパイプラインは、まず対照的なシステムプロンプトのペア（例えば、「あなたは邪悪なAIです」と「あなたは役立つAIです」）と一連の評価質問を生成することから始まります。次に、モデルは肯定的および否定的なプロンプトの両方で応答を生成します。その後、その特性を示す応答と示さない応答の平均的な内部活性化の違いを決定することによってペルソナベクトルが計算されます。この正確な計算により、モデルの内部動作内でその特定のパーソナリティ特性に対応する特定の方向が分離されます。

Qwen 2.5-7B-InstructやLlama-3.1-8B-Instructを含むオープンモデルで行われた実験は、これらのペルソナベクトルのいくつかの実用的な応用を示しています。第一に、モデルの内部状態をペルソナベクトルに投影することで、開発者は応答を生成する前でもその行動を監視し、予測することができます。この機能により、ファインチューニングプロセス中の望ましくない行動変化を早期に検出して軽減することが可能になります。研究は、意図的または意図しないファインチューニングによって引き起こされるペルソナシフトと、対応するペルソナベクトルに沿った変化との間に強い相関関係があることを示しています。

第二に、ペルソナベクトルは、モデルの運用中に望ましくない行動を抑制するための直接的な介入を可能にします。研究者たちはこのプロセスを「ステアリング」と呼んでいます。一つのアプローチである「事後ステアリング」では、推論中にモデルの活性化からペルソナベクトルを減算して負の特性を軽減します。この方法は効果的ですが、他の無関係なタスクにおけるモデルの性能を意図せず低下させることがあります。より新しく、直感に反するアプローチは「予防的ステアリング」です。これは、ファインチューニング中にモデルを望ましくないペルソナに積極的に向かってステアリングするというものです。このアプローチは、トレーニングデータから負の特性を学習することに対してモデルを効果的に「ワクチン接種」し、ファインチューニングの圧力を中和しながら、その一般的な能力をよりよく維持します。

企業にとって特に影響力の大きい応用は、ファインチューニング前にペルソナベクトルを使用してトレーニングデータをスクリーニングすることです。研究者たちは、「投影差」と呼ばれる指標を開発しました。これは、特定のトレーニングデータセットがモデルのペルソナを特定の特性にどれだけ強く押し出すかを定量化するものです。この指標は、トレーニング後にモデルの行動がどのように変化するかを非常に正確に予測するため、開発者は使用する前に問題のあるデータセットを特定し、フィルタリングすることができます。独自データやサードパーティデータ（他のAIモデルによって生成されたデータを含む）でオープンソースモデルをファインチューニングしている企業にとって、ペルソナベクトルは、隠れた望ましくない特性を受け継ぐリスクを監視し、軽減するための直接的なメカニズムを提供します。このプロアクティブなデータスクリーニング機能は強力なツールであり、人間のレビューや他のLLMベースの分析方法では検出を逃れる可能性のある問題のあるサンプルを表面化させることができます。

Anthropicは、この技術が将来のClaudeモデルに統合されることを示しており、ペルソナベクトルが「モデルがこれらのパーソナリティをどのように獲得し、時間とともにどのように変動し、そして私たちがそれらをどのようにうまく制御できるか」についての手がかりを提供すると述べています。ペルソナベクトルの計算、モデルの行動の監視とステアリング、およびトレーニングデータセットの検証のためのコードを公開することで、AnthropicはAIアプリケーション開発者が望ましくないAIの行動に単に反応するだけでなく、より安定した、予測可能で、整合性のとれたパーソナリティを持つモデルを最初から積極的に設計できるよう支援しています。

Anthropicの「ペルソナベクトル」：LLMの個性を解読し制御

関連記事

13万件超のLLMチャットがArchive.orgで公開、プライバシー懸念が浮上

GoogleのアクティブラーニングがLLM訓練データを1万分の1に削減

Googleカレンダーを武器化、プロンプトウェアでGeminiを“悪用”