GEPA：RLを超えた費用対効果の高いLLM最適化

GEPAという新しい人工知能最適化手法は、大規模言語モデル（LLM）が専門的なタスクにどのように適応されるかを革新し、コストと開発期間を劇的に削減することを約束します。カリフォルニア大学バークレー校、スタンフォード大学、Databricksの研究者によって開発されたGEPAは、何千もの高コストな試行錯誤に依存する従来の強化学習（RL）パラダイムを超越します。代わりに、GEPAはLLMが自身の言語理解能力を活用してパフォーマンスを反省し、エラーを診断し、反復的に指示を洗練することを可能にし、優れた精度と効率を実現します。これにより、試行回数は最大35分の1に削減されることがよくあります。

現代の企業向けAIアプリケーション、しばしば「複合AIシステム」と呼ばれるもの — 複数のLLMモジュールと外部ツールを連鎖させる複雑なワークフロー — の最適化は、重大な課題を提示します。これらのシステムを最適化する一般的なアプローチは、Group Relative Policy Optimization（GRPO）のような手法に代表される強化学習でした。この技術は、AIシステムをブラックボックスとして扱い、単純な数値フィードバック、または「スカラー報酬」を与えて、その内部パラメーターを徐々に調整します。しかし、RLの「サンプル非効率性」は、膨大な数の試行回数、つまり「ロールアウト」を必要とし、APIクエリやコードコンパイルのような高価な操作を伴う実世界のアプリケーションでは、法外に遅く、費用がかかります。GEPA論文の共著者であり、UCバークレーの博士課程学生であるLakshya A Agrawalは、この障壁を強調し、RLのコストと複雑さが、チームを非効率な手動の「プロンプトエンジニアリング」に追い込むことが多いと指摘しました。GEPAは、直接ファインチューニングできない最高級のプロプライエタリモデルを活用するチーム向けに設計されており、カスタムGPUクラスターを管理することなくパフォーマンス向上を可能にすると彼は説明しました。

GEPA（Genetic-Paretoの略）は、希薄な数値報酬を豊富で自然言語のフィードバックに置き換えることでこの問題に対処します。これは、AIシステム全体の実行、推論ステップ、ツール呼び出し、エラーメッセージを含むすべてが、LLMが理解できるテキストに変換できるという事実を利用しています。この手法は3つの核心的な柱に基づいています。第一に、「遺伝的プロンプト進化」は、プロンプトを遺伝子プールのように扱い、それらをインテリジェントに「突然変異」させて改善されたバージョンを生成します。この突然変異は「自然言語フィードバックによる反省」によって駆動されます。数回の試行の後、GEPAはLLMに完全な実行トレースと結果を提供し、LLMがこのテキストフィードバックを反省し、問題を診断し、より詳細で改善されたプロンプトを作成することを可能にします。例えば、単に低いスコアを記録するのではなく、LLMはコンパイラのエラーを分析し、プロンプトが特定のライブラリバージョンを指定する必要があると推論するかもしれません。

第三の柱である「パレートベースの選択」は、スマートな探索を保証します。GEPAは、最適ではない「局所最適」に陥る可能性がある単一の最もパフォーマンスの高いプロンプトにのみ焦点を当てるのではなく、「スペシャリスト」プロンプトの多様なリストを維持します。これにより、異なる個々の例でどのプロンプトが優れているかを追跡し、強力な候補のリストを作成します。この多様な成功戦略セットからサンプリングすることで、GEPAはより広範なソリューションを探索し、堅牢なプロンプトを発見する可能性を高めます。このプロセスの成功は「フィードバックエンジニアリング」にかかっており、Agrawalはこれを、AIシステムがすでに生成しているが伝統的に破棄されている豊富なテキストの詳細を表に出すことだと説明しました。

多様なタスクにわたる評価において、GEPAはRLベースのGRPOを含む確立されたベースラインを常に上回りました。オープンソースおよびプロプライエタリなLLMの両方を使用して、GEPAはGRPOよりも最大19%高いスコアを達成し、同時に試行回数は最大35分の1で済みました。Agrawalは説得力のある例を挙げました。質問応答システムの最適化にGEPAは約3時間かかりましたが、GRPOは24時間でした。これは開発時間を8分の1に短縮し、パフォーマンスを20%向上させたことになります。コスト削減も同様に大きく、GEPAはGPU時間で20ドル未満でより良い結果を出し、彼らのテストではRLベースの最適化が約300ドルかかったのに対し、15倍の節約となりました。

生のパフォーマンスを超えて、GEPA最適化システムは、新しい、未知のデータに遭遇した際の信頼性が高いことを示しました。これは、「汎化ギャップ」（訓練とテストのパフォーマンスの差）が小さいことに反映されています。Agrawalはこれを、GEPAのより豊富な自然言語フィードバックに起因するとし、訓練データに特有のパターンを単に学習するのではなく、成功に対するより広範な理解を育むと述べました。企業にとって、これはより回復力があり、適応性の高いAIアプリケーションにつながります。さらに、GEPAの指示ベースのプロンプトは、他のオプティマイザーが生成するものより最大9.2倍短く、本番環境におけるAPIベースのモデルのレイテンシと運用コストを大幅に削減します。

この研究はまた、GEPAが「推論時」の探索戦略としての可能性を強調しており、AIを単一応答生成器から反復的な問題解決器へと変革します。Agrawalは、GEPAが企業の継続的インテグレーション/継続的デリバリー（CI/CD）パイプラインに統合されることを構想しており、そこでは複数の最適化されたコードバージョンを自動的に生成、洗練、テストし、その後、最高のパフォーマンスを発揮するバリアントをレビューのために提案することができます。この「継続的で自動化されたプロセス」は、専門家による手動チューニングに匹敵するか、しばしばそれを上回るソリューションを迅速に生み出すことができます。

著者らは、GEPAがAI開発における新しいパラダイムへの基礎的な一歩を代表すると考えています。しかし、その最も直接的な影響は、高性能AIシステムへのアクセスを民主化することにあるかもしれません。Agrawalは、GEPAが、重要なドメイン専門知識を持つものの、強化学習の複雑さを習得する時間や意欲がないエンドユーザーにとって、AIシステム最適化を身近なものにすると結論付けました。それは、最も関連性の高いタスク固有の知識を持つ利害関係者自身に効果的に力を与えるものです。

GEPA：RLを超えた費用対効果の高いLLM最適化

関連記事

MIT、タンパク質AIの「ブラックボックス」解明で予測メカニズムを可視化

Anacondaレポート：データガバナンスの欠陥がAI導入を阻害

UNLV、ゲーミング産業へのAI影響研究ハブを設立