Databricks dévoile PGRM : Juge IA Hybride & Modèle de Récompense pour une Supervision Évolutive
Alors que l’intelligence artificielle s’intègre de plus en plus dans les opérations commerciales, garantir que ces systèmes sont utiles, sûrs et alignés sur des exigences spécifiques représente un défi majeur, particulièrement lorsqu’ils sont déployés à grande échelle. Les méthodes de supervision traditionnelles, telles que la révision manuelle, sont lentes et coûteuses, tandis que les outils de surveillance existants s’avèrent souvent rigides, inefficaces ou opaques. L’industrie recherche depuis longtemps une solution fiable, adaptable et transparente pour évaluer et contrôler le comportement de l’IA sans nécessiter d’expertise spécialisée approfondie.
Databricks répond à ce besoin crucial avec son nouveau modèle de récompense guidé par des invites (PGRM). Imaginez PGRM comme un inspecteur de contrôle qualité de l’IA capable de s’adapter instantanément à de nouvelles règles, de signaler les cas incertains pour examen humain et de fournir des scores clairs, étayés par la confiance, pour chaque décision. Il offre la flexibilité d’un grand modèle linguistique (LLM) agissant comme un juge, combinée à l’efficacité et à la calibration précise d’un classificateur conçu à cet effet. Que l’objectif soit de faire respecter les directives de sécurité, d’assurer l’exactitude factuelle ou d’aligner les sorties de l’IA sur des normes de marque spécifiques, PGRM promet de rendre la supervision transparente et à grande échelle réalisable.
L’impact de PGRM sur le développement et le déploiement de l’IA est multifacette. Il permet aux organisations d’unifier leurs garde-fous LLM et leurs processus d’évaluation à l’aide d’une seule invite adaptable, permettant ainsi aux experts de concentrer leurs efforts là où ils sont le plus nécessaires. De manière cruciale, il facilite l’évolution des mécanismes de supervision à mesure que les besoins commerciaux changent, éliminant le besoin de coûteuses reformations à partir de zéro. Au-delà de la surveillance de base, PGRM alimente également des flux de travail avancés de modélisation de récompenses, identifiant automatiquement les réponses IA les plus efficaces, facilitant l’ajustement fin du modèle par l’apprentissage par renforcement et favorisant l’amélioration continue avec un effort manuel considérablement réduit.
Les benchmarks internes de Databricks soulignent la double force de PGRM. En tant que juge LLM, il atteint une précision moyenne de 83,3 % dans l’évaluation de la qualité des jugements, égalant de près les performances des modèles de pointe comme GPT-4o (83,6 %) sur des tâches d’évaluation clés telles que la correction des réponses et la fidélité au contexte. De plus, sur RewardBench2, un nouveau benchmark public exigeant pour la modélisation de récompenses, PGRM se classe comme le deuxième meilleur classifieur séquentiel et le quatrième au classement général, avec un score de 80,0. Cette performance surpasse la plupart des modèles de récompenses dédiés et dépasse même les LLM avancés comme GPT-4o (64,9) et Claude 4 Opus (76,5) dans l’évaluation fine des récompenses. Cela fait de PGRM un modèle pionnier, offrant des résultats de pointe à la fois en matière de jugement instructable et de modélisation de récompenses de haute précision sans compromettre l’efficacité.
Le développement de PGRM découle de la reconnaissance que le jugement et la modélisation de récompenses, bien que souvent traités séparément, sont fondamentalement les deux faces d’une même pièce. La solution automatisée la plus courante pour la supervision de l’IA implique d’instruire un LLM à “juger” si un système d’IA s’est comporté de manière appropriée sur la base de directives en langage naturel. Bien que hautement adaptables — permettant de définir des critères comme “sûr”, “véridique” ou “conforme à la marque” via de simples rubriques —, les juges LLM sont coûteux et notoirement peu fiables pour estimer leur propre confiance dans les jugements.
Inversement, les modèles de récompense (MR) sont des classificateurs spécialisés entraînés pour prédire les évaluations humaines des réponses de l’IA. Ils sont efficaces et évolutifs, ce qui les rend idéaux pour aligner les modèles fondamentaux sur les préférences humaines dans des techniques telles que l’apprentissage par renforcement à partir du feedback humain (RLHF), ou pour sélectionner la meilleure réponse parmi plusieurs options générées par l’IA. Contrairement aux juges LLM, les MR sont calibrés, ce qui signifie qu’ils peuvent transmettre avec précision leur certitude quant à une prédiction. Cependant, les MR traditionnels sont généralement ajustés à un ensemble fixe de critères, nécessitant un réentraînement coûteux chaque fois que la définition de “bon” change, limitant ainsi leur utilisation dans les scénarios d’évaluation ou de surveillance dynamiques.
PGRM comble cette lacune critique en intégrant la capacité d’instruction d’un juge LLM dans le cadre d’un modèle de récompense. Le résultat est un hybride qui combine la vitesse et la calibration d’un MR avec la flexibilité d’un juge LLM. Cette approche innovante signifie que PGRM est instructable (permettant des instructions en langage naturel pour la notation), évolutif (évitant la surcharge computationnelle des LLM) et calibré (transmettant avec précision la confiance dans ses jugements). Cette combinaison unique offre un contrôle et une interprétabilité sans précédent dans l’évaluation de l’IA.
Les applications pratiques de PGRM sont vastes et promettent de remodeler le cycle de vie du développement de l’IA. Il simplifie la supervision en permettant la gestion des garde-fous et des juges avec une seule invite réglable, garantissant l’alignement de l’IA avec les règles commerciales évolutives. Ses scores de confiance calibrés permettent un triage de qualité ciblé, aidant à identifier les cas ambigus qui nécessitent une attention d’expert, réduisant ainsi les efforts de révision gaspillés et accélérant la curation de jeux de données de haute qualité. De plus, PGRM facilite l’alignement avec les experts du domaine en permettant aux organisations d’ajuster facilement ce qui constitue une “bonne” ou une “mauvaise” réponse, garantissant que les jugements automatisés s’alignent sur les normes internes. Enfin, ses capacités de modélisation de récompenses peuvent automatiquement faire apparaître et promouvoir les réponses IA optimales lors de l’ajustement fin par apprentissage par renforcement, favorisant des améliorations continues et ciblées en matière de qualité, de sécurité et d’alignement.
Databricks intègre déjà PGRM dans ses recherches et produits, par exemple, en l’utilisant comme modèle de récompense pour le fine-tuning au sein de certaines offres LLM personnalisées. Cela permet la création de modèles de haute qualité, optimisés pour les tâches, même sans données étiquetées étendues. L’entreprise considère PGRM comme la première étape d’un programme de recherche plus vaste axé sur la modélisation de récompenses orientable. Les futures orientations incluent l’apprentissage de PGRM pour effectuer des jugements granulaires au niveau du jeton pour des garde-fous améliorés au moment de l’inférence et une recherche guidée par la valeur, ainsi que l’exploration de nouvelles architectures combinant le raisonnement avec un jugement calibré.