VL-Cogito:PCuRLでマルチモーダル推論を革新

Marktechpost

マルチモーダル推論、すなわち人工知能モデルがテキスト、画像、図表といった多様な情報源からの情報を統合し解釈する複雑なプロセスは、AI開発における重要なフロンティアであり続けています。この課題に対処するため、DAMOアカデミー(アリババグループ)とその協力者は、最先端のマルチモーダル大規模言語モデル(MLLM)であるVL-Cogitoを発表しました。この革新的なシステムは、堅牢な強化学習パイプラインを活用し、数学、科学、論理、図表解釈、一般理解を含む幅広い領域で、大規模モデルの推論能力を根本的に向上させます。

VL-Cogitoの独自アプローチの中核には、マルチモーダル推論タスクでしばしば遭遇する不安定性やドメインギャップを軽減するために特別に設計された、漸進的カリキュラム強化学習(PCuRL)フレームワークがあります。このフレームワークには2つの重要な革新が組み込まれています。1つ目は、オンライン難易度ソフト重み付け(ODSW)で、トレーニングサンプルの固有の難易度とモデルの進化する熟練度に基づいて、トレーニングサンプルへの重点を動的に調整します。「簡単」または「難しい」例を破棄する厳格なフィルタリングメカニズムとは異なり、ODSWは各プロンプトが勾配更新に適切に貢献することを保証し、モデルが連続的な学習曲線を通じて、簡単なケースからますます複雑で挑戦的なケースへとシームレスに進歩することを可能にします。これは、学習可能性の原則に導かれ、異なる難易度段階でのモデルのパフォーマンスに適応する重み付け関数を使用して達成されます。

2つ目の重要な革新は、動的長報酬(DyLR)です。強化学習モデルにおける従来の固定長報酬は、タスクの複雑さの変動を考慮できず、意図せず冗長すぎる、または不必要に簡潔な出力を促すことがあります。DyLRは、各プロンプトの最適な目標応答長を、類似の質問に対する成功した推論パスの平均長から推定して計算することで、これを解決します。この適応メカニズムは、より単純なタスクでは迅速かつ効率的な推論を促進し、複雑な問題に取り組む際にはより深く、多段階の探索を奨励することで、効率と精度の間の重要なバランスを取ります。

VL-Cogitoの強化学習後トレーニングパイプラインは、Qwen2.5-VL-Instruct-7Bバックボーンから直接開始され、初期の教師ありファインチューニング(SFT)「コールドスタート」が不要であるという注目すべき特徴があります。PCuRLプロセスは、簡単、中、困難の3つの連続した強化学習ステージに綿密に構造化されています。各ステージでは、同じ包括的なデータセットがシャッフルされ、モデルが多様な汎化課題に触れるようにします。ODSWの重み付け関数は、特定のステージの目標難易度に向けて勾配更新を偏らせるために適用され、DyLRは「困難」ステージ中に特に活性化され、モデルが必要に応じて推論チェーンを適応的に拡張するように促します。トレーニングでは、学習率1e-6のAdamWオプティマイザや分散学習のためのDeepSpeed-ZeRO3などの標準的な最適化技術が、報酬計算と応答生成のために注意深く調整されたハイパーパラメータと共に使用されます。

トレーニングデータは、数学的推論、論理的推論、計数、科学的推論、図表理解、一般画像理解の6つの広範なタスクカテゴリを網羅する、綿密にキュレーションされた23のオープンソースマルチモーダルデータセットから派生しています。すべてのサンプルは、モデルが多肢選択問題に共通する表面的な手がかりを利用するのを防ぐために、自由回答形式の質問応答形式に再構成されています。トレーニングセットが真に挑戦的なタスクのみに焦点を当てることを確実にするため、独自の難易度サンプリング方法が採用されました。Qwen2.5-VL-7B-Instructモデルが8回の実行で50%以上の精度で回答できたサンプルはすべて除外されました。

VL-Cogitoのパフォーマンスは、Geometry@3K、MathVerse、MathVista、ChartQA、ScienceQA、MMMU、EMMA、MMStarといったよく知られたデータセットを含む、10の多様なタスクパネルにおいて、汎用および推論指向のMLLMの両方に対して厳密にベンチマークされました。このモデルは、Qwen2.5-VLバックボーンと比較して顕著な絶対精度向上を示し、Geometry@3Kで7.6%、MathVistaで5.5%、LogicVistaで4.9%の改善を達成しました。特筆すべきは、VL-Cogitoが10のベンチマークのうち6つで最先端の結果を達成し、特に要求の厳しい数学的および科学的推論タスクにおいて、常にトップパフォーマンスをリードまたは匹敵しました。その堅牢なカリキュラムベースの強化学習アプローチは、教師ありファインチューニングから開始したモデルや強制的な再思考戦略を採用したモデルよりも優れていることが証明されました。例えば、VL-CogitoはGeometry@3Kで68.7%を記録しましたが、VL-Rethinkerは67.7%、ベースのQwen2.5-VLは61.6%でした。

コンポーネントごとのアブレーション研究は、VL-Cogitoの革新の貢献をさらに際立たせました。漸進的カリキュラム強化学習単独で、通常の強化学習ベースラインと比較して平均スコアを0.8%向上させました。動的長報酬メカニズムは、特に複雑な数学領域で追加のパフォーマンス向上をもたらしました。さらに、ODSWは、特に不均衡なまたは偏ったトレーニングデータの条件下で、より単純なバイナリの難しいサンプルフィルタリングを一貫して上回りました。

推論効率とトレーニングダイナミクスの分析により、動的報酬は固定長報酬スキームと比較して、平均精度が高く、トークン効率が優れていることが明らかになりました。意図した通り、適応的な長さメカニズムは、複雑な数学および論理タスクではより長い推論チェーンをもたらし、科学および一般理解の問題ではより短く直接的な応答を好む結果となりました。PCuRLの「困難」ステージは、推論長と検証精度の著しい増加を誘発し、出力長が静的であるにもかかわらず精度が停滞した通常の強化学習アプローチのパフォーマンスを上回りました。

ケーススタディは、VL-Cogitoの洗練された推論能力を示しています。数学的問題の場合、モデルは詳細で自己反省的かつ段階的な推論を示し、解をきめ細かいチェーンに分解し、自身の誤りを積極的に修正します。これは強化学習検証プロセスによって培われた行動です。画像内の特定のオブジェクトを識別するような分類タスクでは、結論に達する前に各オプションを体系的に検討し、強力なマルチモーダル理解とプロセス信頼性を示します。

体系的なPCuRLパイプラインは、マルチモーダルAIを進化させるためのいくつかの重要な洞察を検証します。それは、中程度の難易度のプロンプトがモデルの進歩に最適であること、そして、増加する課題にさらされることが永続的な分析深度を構築するために不可欠である一方、簡単なサンプルを過度に強調するとパフォーマンスが低下する可能性があることを強調しています。この研究はまた、正確性、フォーマット、および長さを組み合わせたきめ細かい報酬構造が、ニュアンスのある、文脈に敏感な推論出力を促進する上で重要であることを示しています。最後に、VL-Cogitoは、「SFTなしのコールドスタート」強化学習アプローチが実行可能であるだけでなく、非常に効果的であり、高価な教師ありファインチューニングのウォームアップの必要性を回避できる可能性を示しています。

VL-Cogitoの革新的なアーキテクチャとトレーニング方法は、多様なドメインにおけるマルチモーダル推論の新しいベンチマークを設定します。漸進的カリキュラム強化学習と動的長報酬の経験的検証は、将来のマルチモーダルAIモデルにおいて、より堅牢で適応性の高い推論能力を開発するための明確なロードマップを提供します。