Databricks presenta PGRM: Juez de IA Híbrido y Modelo de Recompensa para Supervisión Escalable

Databricks

A medida que la inteligencia artificial se integra cada vez más en las operaciones comerciales, garantizar que estos sistemas sean útiles, seguros y estén alineados con requisitos específicos presenta un desafío significativo, especialmente cuando se implementan a gran escala. Los métodos tradicionales de supervisión, como la revisión manual, son lentos y costosos, mientras que las herramientas de monitoreo existentes a menudo resultan rígidas, ineficientes u opacas. La industria ha buscado durante mucho tiempo una solución confiable, adaptable y transparente para evaluar y controlar el comportamiento de la IA sin requerir una profunda experiencia especializada.

Databricks está abordando esta necesidad crítica con su nuevo Modelo de Recompensa Guiado por Prompts (PGRM). Imagine PGRM como un inspector de control de calidad de IA capaz de adaptarse instantáneamente a nuevas reglas, marcar casos inciertos para revisión humana y proporcionar puntuaciones claras y respaldadas por la confianza para cada decisión. Ofrece la flexibilidad de un modelo de lenguaje grande (LLM) que actúa como juez, combinado con la eficiencia y la calibración precisa de un clasificador diseñado específicamente. Ya sea que el objetivo sea hacer cumplir las pautas de seguridad, garantizar la precisión fáctica o alinear las salidas de IA con estándares de marca específicos, PGRM promete hacer que la supervisión a gran escala y transparente sea alcanzable.

El impacto de PGRM en el desarrollo y la implementación de la IA es multifacético. Permite a las organizaciones unificar sus barreras de seguridad y procesos de evaluación de LLM utilizando un único prompt adaptable, lo que permite a los expertos centrar sus esfuerzos donde más se necesitan. Crucialmente, facilita la evolución de los mecanismos de supervisión a medida que cambian las necesidades comerciales, eliminando la necesidad de costosos reentrenamientos desde cero. Más allá del monitoreo básico, PGRM también impulsa flujos de trabajo avanzados de modelado de recompensas, identificando automáticamente las respuestas de IA más efectivas, facilitando el ajuste fino del modelo a través del aprendizaje por refuerzo y fomentando la mejora continua con un esfuerzo manual significativamente reducido.

Los puntos de referencia internos de Databricks resaltan la doble fortaleza de PGRM. Como juez de LLM, logra una precisión promedio del 83.3% en la evaluación de la calidad del juicio, igualando de cerca el rendimiento de modelos líderes como GPT-4o (83.6%) en tareas de evaluación clave como la corrección de respuestas y la fidelidad al contexto. Además, en RewardBench2, un nuevo y exigente punto de referencia público para el modelado de recompensas, PGRM se clasifica como el segundo mejor clasificador secuencial y el cuarto en general, con una puntuación de 80.0. Este rendimiento supera a la mayoría de los modelos de recompensa dedicados e incluso supera a LLM avanzados como GPT-4o (64.9) y Claude 4 Opus (76.5) en la evaluación de recompensas de grano fino. Esto convierte a PGRM en un modelo pionero, que ofrece resultados de vanguardia tanto en juicios instruibles como en modelado de recompensas de alta precisión sin comprometer la eficiencia.

El desarrollo de PGRM surge del reconocimiento de que el juicio y el modelado de recompensas, aunque a menudo se tratan por separado, son fundamentalmente dos caras de la misma moneda. La solución automatizada más común para la supervisión de la IA implica instruir a un LLM para que “juzgue” si un sistema de IA se ha comportado apropiadamente basándose en pautas de lenguaje natural. Si bien son altamente adaptables —lo que permite definir criterios como “seguro”, “veraz” o “acorde a la marca” mediante rúbricas simples— los jueces LLM son costosos y notoriamente poco fiables al estimar su propia confianza en los juicios.

Por el contrario, los modelos de recompensa (RM) son clasificadores especializados entrenados para predecir las calificaciones humanas de las respuestas de IA. Son eficientes y escalables, lo que los hace ideales para alinear modelos fundacionales con las preferencias humanas en técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), o para seleccionar la mejor respuesta entre múltiples opciones generadas por IA. A diferencia de los jueces LLM, los RM están calibrados, lo que significa que pueden transmitir con precisión su certeza sobre una predicción. Sin embargo, los RM tradicionales suelen ajustarse a un conjunto fijo de criterios, lo que requiere un reentrenamiento costoso cada vez que cambia la definición de “bueno”, lo que limita su uso en escenarios de evaluación o monitoreo dinámicos.

PGRM cierra esta brecha crítica al empaquetar la capacidad de instrucción de un juez LLM dentro del marco de un modelo de recompensa. El resultado es un híbrido que combina la velocidad y la calibración de un RM con la flexibilidad de un juez LLM. Este enfoque innovador significa que PGRM es instruible (permite instrucciones en lenguaje natural para la puntuación), escalable (evitando la sobrecarga computacional de los LLM) y calibrado (transmite con precisión la confianza en sus juicios). Esta combinación única ofrece un control y una interpretabilidad sin precedentes en la evaluación de la IA.

Las aplicaciones prácticas de PGRM son extensas, prometiendo remodelar el ciclo de vida del desarrollo de la IA. Simplifica la supervisión al permitir la gestión de barreras de seguridad y jueces con un único prompt ajustable, asegurando la alineación de la IA con las reglas comerciales en evolución. Sus puntuaciones de confianza calibradas permiten una clasificación de calidad dirigida, ayudando a identificar casos ambiguos que requieren atención experta, reduciendo así el esfuerzo de revisión desperdiciado y acelerando la curación de conjuntos de datos de alta calidad. Además, PGRM facilita la alineación con expertos en el dominio al permitir que las organizaciones ajusten fácilmente lo que constituye una respuesta “buena” o “mala”, asegurando que los juicios automatizados se alineen con los estándares internos. Finalmente, sus capacidades de modelado de recompensas pueden identificar y promover automáticamente las respuestas óptimas de IA durante el ajuste fino del aprendizaje por refuerzo, impulsando mejoras continuas y dirigidas en calidad, seguridad y alineación.

Databricks ya está integrando PGRM en su investigación y productos, por ejemplo, utilizándolo como modelo de recompensa para el ajuste fino dentro de ciertas ofertas personalizadas de LLM. Esto permite la creación de modelos de alta calidad y optimizados para tareas incluso sin datos etiquetados extensos. La compañía ve a PGRM como solo el paso inicial en una agenda de investigación más amplia centrada en el modelado de recompensas dirigible. Las direcciones futuras incluyen enseñar a PGRM a realizar juicios de grano fino a nivel de token para mejorar las barreras de seguridad en tiempo de inferencia y la búsqueda guiada por valores, así como explorar nuevas arquitecturas que combinen el razonamiento con el juicio calibrado.