DatabricksがPGRMを発表:スケーラブルな監視のためのハイブリッドAI判定&報酬モデル

Databricks

人工知能がビジネス運用にますます統合されるにつれて、これらのシステムが有用で安全であり、特定の要件に合致していることを保証することは、特に大規模に展開される場合に大きな課題となります。手動レビューのような従来の監視方法は遅く、費用がかかり、既存の監視ツールはしばしば硬直的で非効率的、または不透明であることが判明しています。業界は長年、深い専門知識を必要とせずにAIの動作を評価および制御するための、信頼性が高く、適応性があり、透明なソリューションを求めてきました。

Databricksは、新しいプロンプト誘導型報酬モデル(PGRM)でこの重要なニーズに対応しています。PGRMは、新しいルールに即座に適応し、不確実なケースを人間のレビューのためにフラグ付けし、すべての決定に対して明確で信頼性の高いスコアを提供するAI品質管理検査官として想像してください。これは、大規模言語モデル(LLM)が判定者として機能する柔軟性と、専用に構築された分類器の効率性および正確なキャリブレーションを兼ね備えています。目標が安全ガイドラインの施行、事実の正確性の確保、またはAI出力の特定のブランド標準への整合であるかどうかにかかわらず、PGRMは大規模で透明な監視を実現することを約束します。

PGRMがAI開発と展開に与える影響は多岐にわたります。これにより、組織は単一の適応可能なプロンプトを使用してLLMのガードレールと評価プロセスを統合でき、専門家が最も必要な場所に労力を集中させることができます。決定的に重要なのは、ビジネスニーズの変化に応じて監視メカニズムの進化を促進し、費用のかかるゼロからの再トレーニングの必要性を排除することです。基本的な監視を超えて、PGRMは高度な報酬モデリングワークフローも強化し、最も効果的なAI応答を自動的に特定し、強化学習を通じてモデルのファインチューニングを促進し、手動作業を大幅に削減しながら継続的な改善を推進します。

Databricksの内部ベンチマークは、PGRMの二重の強みを強調しています。LLM判定者として、PGRMは判断品質の評価で平均83.3%の精度を達成し、回答の正確性やコンテキストへの忠実性などの主要な評価タスクにおいて、GPT-4o(83.6%)のような最先端モデルの性能に匹敵します。さらに、報酬モデリングのための要求の厳しい新しい公開ベンチマークであるRewardBench2では、PGRMはシーケンシャル分類器として2位、全体で4位にランクされ、スコアは80.0です。この性能は、ほとんどの専用報酬モデルを上回り、GPT-4o(64.9)やClaude 4 Opus(76.5)のような高度なLLMをも、きめ細かな報酬評価において凌駕しています。これにより、PGRMは、指示可能な判定と高精度報酬モデリングの両方で最先端の結果を提供しながら、効率を損なわない先駆的なモデルとなっています。

PGRMの開発は、判定と報酬モデリングがしばしば別々に扱われるものの、根本的には同じコインの裏表であるという認識から生まれています。AI監視のための最も一般的な自動化ソリューションは、自然言語のガイドラインに基づいてAIシステムが適切に動作したかどうかを「判定」するようLLMに指示することです。LLM判定者は、非常に適応性が高く(「安全」、「真実」、または「ブランドに合致」などの基準を簡単なルーブリックで定義できる)、高価であり、自身の判断に対する信頼度を推定する能力が著しく低いことで知られています。

逆に、報酬モデル(RM)は、AI応答に対する人間の評価を予測するために訓練された特殊な分類器です。これらは効率的でスケーラブルであり、人間のフィードバックからの強化学習(RLHF)のような技術で基盤モデルを人間の好みと整合させるため、または複数のAI生成オプションから最適な応答を選択するために理想的です。LLM判定者とは異なり、RMはキャリブレーションされており、予測に対する確信度を正確に伝えることができます。しかし、従来のRMは通常、固定された一連の基準に調整されており、「良い」の定義が変わるたびに高価な再トレーニングが必要となるため、動的な評価や監視シナリオでの使用が制限されます。

PGRMは、LLM判定者の指示可能性を報酬モデルのフレームワーク内に組み込むことで、この重要なギャップを埋めます。その結果、RMの速度とキャリブレーションをLLM判定者の柔軟性と組み合わせたハイブリッドが誕生しました。この革新的なアプローチにより、PGRMは指示可能(自然言語の指示でスコアリングが可能)、スケーラブル(LLMの計算オーバーヘッドを回避)、キャリブレーション済み(判断の信頼度を正確に伝える)となります。この独自の組み合わせは、AI評価において前例のない制御と解釈可能性を提供します。

PGRMの実用的な応用は広範であり、AI開発ライフサイクルを再構築する可能性を秘めています。単一の調整可能なプロンプトでガードレールと判定者の両方を管理できるようにすることで、監視を簡素化し、AIが進化するビジネスルールと整合することを保証します。そのキャリブレーションされた信頼度スコアは、ターゲットを絞った品質トリアージを可能にし、専門家の注意が必要な曖昧なケースを特定するのに役立ち、それによって無駄なレビュー作業を削減し、高品質なデータセットのキュレーションを加速します。さらに、PGRMは、組織が「良い」または「悪い」応答が何であるかを簡単に調整できるようにすることで、ドメイン専門家との整合を促進し、自動化された判断が内部標準と整合することを保証します。最後に、その報酬モデリング機能は、強化学習のファインチューニング中に最適なAI応答を自動的に発見し促進することができ、品質、安全性、整合性の継続的かつターゲットを絞った改善を推進します。

DatabricksはすでにPGRMを研究および製品に統合しており、例えば、特定のカスタムLLM製品内でのファインチューニングの報酬モデルとして活用しています。これにより、広範なラベル付きデータがなくても、高品質でタスクに最適化されたモデルを作成できます。同社はPGRMを、操縦可能な報酬モデリングに焦点を当てたより広範な研究アジェンダの最初のステップと見なしています。今後の方向性には、PGRMに推論時のガードレールと価値誘導型検索を強化するためのきめ細かなトークンレベルの判断を実行させること、および推論とキャリブレーションされた判断を組み合わせた新しいアーキテクチャを探求することが含まれます。