Metaの「Coconut」:潜在推論がLLMの能力を向上

Towardsdatascience

より人間らしい人工知能への大きな一歩として、Metaの研究者たちは、大規模言語モデル(LLM)が複雑な問題を処理し解決する方法を革新するために設計された新しいフレームワーク「Coconut」を発表しました。正式には「連続思考の連鎖」(Chain of Continuous Thought)と名付けられたCoconutは、LLMを明示的な言語ベースの推論の制約から解放し、連続的な非言語の潜在空間で「思考」することを可能にします。

従来、LLMは「思考の連鎖」(Chain-of-Thought, CoT)推論を用いて複雑なタスクに取り組み、その問題解決プロセスの各ステップを自然言語トークンで明確に表現していました。これは効果的であるものの、多くの場合非効率的であることが判明しています。生成される言語の多くは、核となる推論を進めるのではなく、言語的な一貫性を維持するために費やされており、人間が瞬時の思考をすべて言葉にする必要があるのと似ています。この冗長性は、計算オーバーヘッドを増加させるだけでなく、深い計画や後戻りを必要とするステップに取り組む際にLLMに課題を提起します。Coconutのインスピレーションは、人間の認知がすべての論理的飛躍を言葉にすることなく複雑な問題を頻繁にナビゲートするという観察から来ており、言語が純粋な推論に常に最適な媒体ではないことを示唆しています。

Coconutは、このプロセスを根本的に再定義します。モデルの内部表現を次の推論ステップのために単語トークンに変換する代わりに、LLMの「最後の隠れ状態」(「連続思考」と呼ばれる豊かな高次元ベクトル)を直接、次の入力として自身にフィードバックします。これにより、モデルは「潜在モード」(非言語的思考状態)で動作し、人間が読める出力が必要な場合にのみ「言語モード」に切り替わります。という特殊なマーカーが、これらの内部推論セグメントを区切ります。Coconutのトレーニングには多段階のカリキュラムが含まれており、モデルが中間ステップで明示的な言語ではなく、これらの潜在状態に依存するように段階的に教えていきます。

このパラダイムシフトの利点は説得力があります。連続的な潜在空間で推論することにより、Coconutは効率を大幅に向上させ、精度を犠牲にすることなく推論中に生成されるトークンの数を削減します。さらに注目すべきは、この潜在的なアプローチが高度な推論パターンの出現を促進することです。単一の決定論的な経路にコミットすることが多いCoTとは異なり、Coconutの連続思考は複数の潜在的な次のステップを同時にエンコードできるため、「幅優先探索」の一種が可能になります。この柔軟性は、広範な計画や代替ソリューションを後戻りして探索する能力を必要とするタスクにとって特に有益です。例えば、Coconutは、計画と後戻りをテストするために設計されたベンチマークであるProsQAデータセットで96.6%という驚異的な精度を達成し、従来のCoTの76.7%を大幅に上回りました。さらに、これらの潜在思考の連続的な性質は、それらを完全に微分可能にし、勾配降下法によるエンドツーエンドの最適化を可能にします。この連続思考の「連鎖」は、フレームワークがスケールアップし、ますます複雑な問題に取り組むための経路も示唆しています。

「連続思考の連鎖」はLLM開発における有望な新しいフロンティアを表していますが、課題も残っています。例えば、これらの潜在思考の解釈可能性は、進行中の研究分野です。さらに、根本的に異なるアプローチであるため、確立されたCoT手法と比較して、Coconutが広く採用される技術として成熟するには、より多くの時間と専門的な研究が必要となるでしょう。容易に入手できる事前学習済みモデルの欠如や、後の段階で観察されたトレーニングの不安定性も、将来の開発領域を浮き彫りにしています。これらの初期の課題にもかかわらず、2024年12月に発表されたMetaの研究者たちの論文は、潜在推論がLLMを単なる言語生成を超えて真の認知能力へと高める計り知れない可能性を示し、堅固な基盤を築いています。