強化学習:エンタープライズAIの次なるフロンティア

Gradientflow

専門的なAI研究に限定された複雑な領域と長らく認識されてきた強化学習(RL)は、エンタープライズ人工知能のための実用的なツールへと急速に移行しています。この変化は過去1年間でますます顕著になり、主にモデルを人間の好みと一致させることを目的とした、人間からのフィードバックによる強化学習(RLHF)における初期の主流アプリケーションを超えて進んでいます。今日、RLは、複雑な多段階の問題に対処できる洗練された推論モデルや自律型エージェントの開発に不可欠です。現在の状況は、主にテクノロジー大手からの説得力のあるケーススタディと、初期段階のツールが混在していますが、これらの初期の取り組みは、エンタープライズAIの未来に向けた明確な方向性を示しています。

手動のプロンプトエンジニアリングによって基盤モデルを洗練する従来のメソッドは、しばしば持続不可能であることが判明し、チームを「1つのエラーを修正すると、意図せず別のエラーが発生する」というサイクルに陥らせています。例えば、Fortune 100の金融サービス組織は、10-Kレポートのような複雑な金融文書を分析する際にこの課題に直面しました。そこでは不正確さが重大な法的リスクを伴います。彼らのプロンプトエンジニアリングの努力は、修正の無限ループにつながり、システムが本番レベルの信頼性を達成するのを妨げました。対照的に、RLを採用することで、自動検証システムを使用してLlamaモデルを微調整することができました。このシステムは、ソースドキュメントと照合して応答を自動的にチェックし、手動でプロンプトを調整する必要をなくしました。その結果、単に記憶するだけでなく、独立して推論できるモデルが生まれ、その有効性は2倍になり、GPT-4oに対する精度はベースラインの27%から58%に向上しました。これは、現代のRLの根本的な利点を示しています。静的な例から動的なフィードバックシステムへの移行を可能にし、ユーザーの役割をデータラベラーから批評家へと変え、的を絞った洞察を提供します。コード生成のような客観的なタスクの場合、このフィードバックは単体テストを通じて完全に自動化でき、モデルが解決策を探索し、試行錯誤から学ぶことを可能にします。

RLの最も強力なアプリケーションの1つは、モデルに問題を段階的に推論することを教えることです。エンタープライズAI企業Aibleは、これを例えで説明しています。従来の教師ありファインチューニングは、「ペットの訓練」に似ており、フィードバックは最終出力のみに基づいています。しかし、強化学習は「インターンの訓練」を可能にし、人間従業員を指導するのと同様に、中間推論ステップに関するフィードバックを許可します。このアプローチはAibleにとって劇的な結果をもたらしました。わずか1,000の例にフィードバックを提供し、計算コストはわずか11ドルで、専門的なエンタープライズタスクにおけるモデルの精度は16%から84%に跳ね上がりました。鍵となったのは、推論ステップに関するきめ細やかなガイダンスであり、これによりユーザーは、最終結果のみを評価する際には見過ごされがちな微妙な論理エラーを特定することができました。金融機関も同様のブレークスルーを目の当たりにしています。研究者は、金融推論に特化した70億パラメータモデルであるFin-R1を開発しました。ステップバイステップの推論チェーンを含むキュレーションされた金融シナリオデータセットで訓練されたこのコンパクトなモデルは、ConvFinQAで85.0点、FinQAで76.0点を達成し、はるかに大規模な汎用モデルを上回りました。この方法は、自動コンプライアンスチェックやロボアドバイザリーサービスなど、透明で段階的な推論が規制遵守にとって最重要となる、業界の重要なニーズに対処します。

RLの最先端は、複雑なビジネスワークフローを実行するための自律型エージェントの訓練を含みます。これにはしばしば、エージェントがライブの生産システムに影響を与えることなく多段階タスクを練習できる、安全なシミュレーション環境(「RLジム」として知られる)の作成が必要です。これらの環境は、実際のビジネスアプリケーションを再現し、ユーザーインターフェースの状態とシステム応答をキャプチャして安全な実験を可能にします。中国のスタートアップMonicaは、このアプローチを活用してManus AIを開発しました。これは、タスク分解のためのプランナーエージェント、実装のための実行エージェント、品質管理のための検証エージェントで構成される洗練されたマルチエージェントシステムです。RL訓練を通じて、Manusは戦略を動的に適応させ、現実世界のタスク自動化のためのGAIAベンチマークで最先端のパフォーマンスを達成し、競合他社と比較して成功率が65%を超えました。同様に、eBayの研究者は、事前承認スクリーニング、発行者検証、承認後リスク評価の3段階にわたるシーケンシャルな意思決定問題として捉えることで、新しい多段階詐欺検出システムを考案しました。彼らのイノベーションは、大規模言語モデルを使用して訓練のためのフィードバックメカニズムを自動的に生成および洗練し、手動報酬エンジニアリングの従来のボトルネックを回避することを含みました。6か月間にわたる600万件以上の実際のeBay取引で検証されたこのシステムは、詐欺検出精度を4〜13パーセンテージポイント向上させるとともに、リアルタイム処理に不可欠な50ミリ秒未満の応答時間を維持しました。

しかし、RLを大規模に実装するには、依然として大きなインフラ課題が伴います。AnthropicがSurge AIと協力してClaudeモデルを訓練したことは、本番環境でのRLHFに特化したプラットフォームが必要であることを浮き彫りにしました。従来のクラウドソーシングプラットフォームは、洗練された言語モデルの出力を評価するために必要な専門知識を欠いており、開発のボトルネックを生み出していました。Surge AIのプラットフォームは、ドメインエキスパートのラベラーと独自の品質管理アルゴリズムでこの問題に対処し、Anthropicが多様なドメインでニュアンスのある人間からのフィードバックを収集しつつ、最先端モデルの訓練に不可欠なデータ品質基準を維持することを可能にしました。

大規模なRL導入は、特にApple Intelligenceの基盤モデルにおいて、消費者技術分野で顕著です。Appleは、REINFORCE Leave-One-Out(RLOO)アルゴリズムを使用して、30億パラメータのオンデバイスモデルとスケーラブルなサーバーベースモデルという2つの補完的なモデルを開発しました。彼らの分散型RLインフラストラクチャは、従来の同期トレーニングと比較して、必要なデバイス数を37.5%削減し、計算時間を75%短縮しました。決定的に、RLはベンチマーク全体で4〜10%の性能向上をもたらし、指示の遵守と全体的な有用性において著しい改善を達成し、ユーザーエクスペリエンスを直接向上させました。同様に、企業向けAI企業であるCohereは、分散型トレーニングアプローチを通じてCommand Aを開発しました。単一の巨大なモデルではなく、コード、安全性、検索、数学、多言語サポート、長文コンテキスト処理をカバーする6つのドメイン固有の専門家モデルを並行してトレーニングし、その後パラメータマージを通じてそれらを結合しました。複数のRL技術が結合されたモデルを洗練し、一般的なタスクにおいてGPT-4oに対する人間の好感度を43.2%から50.4%に向上させ、推論とコーディングではさらに大きな改善を達成しました。グローバルなエンタープライズアプリケーションにとって、文化的な複雑さはRL実装に独自の課題をもたらします。北米の大手テクノロジー企業はMacgenceと提携し、多言語翻訳、バイアス軽減、文化的感受性を含む80,000件の専門的なアノテーションタスクを処理することで、多様なグローバル市場でRLHFを実装しました。従来の教師あり学習アプローチでは対応が困難だったこれらの複雑さは、強化学習手法によってのみ達成可能な反復的な人間からのフィードバック学習を必要としました。

同時に、エンタープライズプラットフォームはRL技術のアクセシビリティを高めています。Databricksは、テスト時適応最適化(TAO)を導入しました。これにより、組織はAIアプリケーションによって既に生成された未ラベルの利用データのみを使用してモデルのパフォーマンスを向上させることができます。高価な人間がラベル付けしたトレーニングデータを必要とする従来のメソッドとは異なり、TAOは強化学習を活用して、履歴入力例のみを使用してモデルにタスクのパフォーマンスを向上させる方法を教えます。「データフライホイール」を作成することで(デプロイされたアプリケーションが自動的にトレーニング入力を生成する)、このアプローチにより、Llamaのような費用対効果の高いオープンソースモデルが、高価なプロプライエタリな代替品に匹敵する品質レベルを達成できるようになります。

これらの説得力のあるケーススタディにもかかわらず、RLはほとんどの組織にとって依然としてニッチな機能であり、多くの高度な実装はテクノロジー企業から生まれています。しかし、現在進行中のRL研究は驚くほど広範であり、アセンブリコードの最適化(Visaの研究者はコンパイラよりも1.47倍の高速化を達成)から、計算リソースの自動割り当て(MITとIBM)まで多岐にわたる取り組みが行われています。SkyRL、verl、NeMo-RLなどのフレームワークを含む、活況を呈しているオープンソースエコシステムは、これらの機能の民主化に向けた有望な進展を示しています。しかし、ドメインエキスパートが深いRLの専門知識を必要とせずにトレーニングプロセスをガイドできるインターフェースの作成には、まだ多くの作業が残されています。ますます高性能になる基盤モデル、実績のあるRL技術、そして新興ツールの収束は、転換点が差し迫っていることを示唆しています。推論強化モデルが標準となり、企業がより洗練されたカスタマイズを要求するにつれて、強化学習は専門的な研究技術から、AI投資を最大限に活用しようとする組織にとって不可欠なインフラストラクチャへと移行する準備が整っているように見えます。