TRLが先進VLMアライメント手法を発表:GRPO、GSPO、MPO
画像とテキストの両方を解釈し、それらと対話するように設計されたビジョン言語モデル(VLM)は、その能力を急速に向上させています。しかし、これらの強力なモデルを人間の微妙な好みに合わせてアライメントする重要なステップは、その効果的な展開にとって依然として最も重要です。TRL(Transformers Reinforcement Learning)ライブラリは、以前に教師ありファインチューニング(SFT)と直接選好最適化(DPO)を通じてVLMのポストトレーニングで成功を収めていましたが、最近の進展はさらにその境界を押し広げています。
従来、VLMのアライメントは、モデルに指示に従うことを教えるための初期SFTフェーズと、その後にDPOを用いて選好データに基づいて応答を洗練するプロセスを含んでいました。DPOは、モデルの出力ペア(「選択された」回答と「拒否された」回答)間の対比損失を最適化することで機能し、モデルを望ましい振る舞いに導きます。しかし、このペアワイズアプローチには限界があり、混合選好最適化(MPO)、グループ相対ポリシー最適化(GRPO)、およびその派生であるグループシーケンスポリシー最適化(GSPO)のような、より洗練されたマルチモーダルアライメント手法の出現を促しました。これらの革新的な技術は、選好データからより豊富な信号を抽出し、現代の複雑なVLMとより効果的にスケーリングします。
混合選好最適化(MPO)は、SFTまたはDPOのみでアライメントされたモデルに見られる欠点を直接解決します。SFTアライメントされたモデルは推論タスクにおける分布シフトに苦労することがありますが、DPOアライメントされたモデルは時に反復的な応答を生成したり、一貫した根拠を欠いたりすることがあります。MPOは、DPOに結合損失関数を追加することでこれを解決します。この関数は、標準のDPO選好損失、二項分類器最適化(BCO)からの品質損失、およびSFTからの生成損失を統合します。この三者アプローチは大幅な改善を示しており、ある論文では、この結合損失に切り替えるだけで、困難なMathVistaベンチマークで6.2ポイントの向上を報告しています。MPOをTRLのDPOTrainer
クラスに統合することは合理化されており、結合された損失タイプとその対応する重みを有効にするために、わずか数行の設定で済みます。
もう一つの重要な進展は、DeepSeek MathおよびDeepSeek R1大規模言語モデルとともに初めて導入されたグループ相対ポリシー最適化(GRPO)です。GRPOは、対話軌跡のグループまたはバッチ全体でポリシー更新を実行することにより、近接ポリシー最適化(PPO)を強化します。このグループベースの学習により、GRPOは報酬信号のノイズに対してより堅牢になります。ノイズがグループ全体で平均化される傾向があるためです。孤立した高報酬サンプルに焦点を当てるのではなく、「良い」応答のより広い意味を学習することで、GRPOは非常に高性能なモデルを生み出します。TRLは現在、ビジョン言語モデル向けのGRPOをサポートしており、回答形式とソリューションの正確性を検証するための報酬関数の定義が必要です。例えば、ある報酬関数は応答が特定の構造に準拠しているかをチェックし、別の報酬関数は提供された数学的ソリューションの正確性を評価するかもしれません。
GRPOを基盤とし、グループシーケンスポリシー最適化(GSPO)はより最近の強化学習アライメントアルゴリズムです。Qwenによって開発されたGSPOは、トークンごとではなくシーケンスレベルで重要度サンプリング重みを計算することで、より安定したトレーニングを保証し、GRPOのいくつかの制限を克服します。この違いにより、GSPOは特にMixture-of-Experts(MoE)スタイルのモデルにとって関連性が高く、有益です。TRLの最新バージョンはGSPOを組み込んでおり、そのマルチモーダルサポートを活用し、GRPOと同様の構成ですが、その独自の特性を有効にするためにimportance_sampling_level="sequence"
のような追加パラメータを含んでいます。
Qwen2.5VL-3Bをデータサブセットでファインチューニングするなどの予備評価は、これらの新しい手法の有効性を示唆しています。これらの「感触確認」(vibe-check)比較は網羅的なベンチマークではありませんが、明確な違いを示しています。ベースモデルは複雑な幾何学的問題に苦戦し、循環的な推論を示したり、与えられた選択肢の中から正しい答えに到達できなかったりする可能性があります。MPOはまだ多少の躊躇が見られるものの、より構造化されたアプローチを示し始めています。決定的に、GRPOとGSPOの出力は、ベースモデルの探索的でしばしば誤った試みとは異なり、より直接的で、首尾一貫した、正確な推論を一貫して提供し、適切な幾何学定理を適用することで、多くの場合、直接正しい解決策に導きます。
これらの高度なアライメント手法の利用を促進するため、TRLは高スループット推論エンジンであるvLLMを統合しました。この統合は、トレーニング中にサンプルを生成する必要があるオンラインアライメント手法にとって非常に重要です。vLLMは2つの主要なモードで動作できます。「コロケート」(colocate)モードでは、トレーニングループと同じプロセス内で実行され、GPUリソースを共有します。一方、「サーバー」(server)モードでは、vLLMはトレーニングプロセスがクエリできる独立したサービスとして実行できます。この柔軟性は、Hugging Face Transformersバックエンドを備えたvLLMのサポートと相まって、TRL内のVLMアライメントワークフローの効率とスケーラビリティを大幅に向上させます。
TRLにおけるこれらの新しいマルチモーダルアライメント手法は、ビジョン言語モデルの洗練において大きな飛躍を意味します。単純なペアワイズ選好を超えて、より豊富な信号とより堅牢な最適化技術を活用することで、開発者は、理解するだけでなく、より高い精度、一貫性、そして人間の意図に合致した応答をするVLMを構築できるようになります。