Aprendizaje Activo de Google: Datos de Entrenamiento LLM Reducidos 10.000x

Research

Los Grandes Modelos de Lenguaje (LLM) muestran un gran potencial para tareas complejas como la clasificación de contenido publicitario inseguro. Identificar contenido que viola las políticas de publicidad exige una comprensión profunda del contexto y los matices culturales, áreas donde los LLM a menudo superan a los sistemas de aprendizaje automático tradicionales. Sin embargo, el ajuste fino de los LLM para estos desafíos intrincados generalmente requiere vastas cantidades de datos de entrenamiento de alta fidelidad, lo cual es difícil y costoso de adquirir. Este desafío se agrava por la “deriva de concepto” – la evolución continua de las políticas de seguridad y la aparición de nuevas formas de contenido inseguro, lo que a menudo requiere un reentrenamiento costoso en conjuntos de datos completamente nuevos. En consecuencia, minimizar los datos necesarios para el entrenamiento se ha convertido en un objetivo crítico.

Para abordar esto, Google Ads ha desarrollado un nuevo proceso escalable para el aprendizaje activo. Este enfoque innovador reduce drásticamente la cantidad de datos de entrenamiento necesarios para el ajuste fino de los LLM, al tiempo que mejora significativamente la alineación del modelo con los expertos humanos. El proceso se puede aplicar a conjuntos de datos que contienen cientos de miles de millones de ejemplos, identificando iterativamente solo las instancias más valiosas para la anotación humana, y luego utilizando estas etiquetas proporcionadas por expertos para el ajuste fino del modelo. En los experimentos, este método redujo la escala de los datos de entrenamiento de 100.000 ejemplos a menos de 500, impulsando simultáneamente la alineación modelo-humano hasta en un 65 por ciento. Para modelos más grandes en producción, se han observado reducciones aún mayores, utilizando hasta cuatro órdenes de magnitud menos datos mientras se mantiene o mejora la calidad.

El proceso de curación comienza con un LLM inicial, al cual, con una capacitación específica mínima o nula, se le da una instrucción que define el contenido de interés, por ejemplo, “¿Es este anuncio un clickbait?”. Este LLM inicial luego etiqueta un conjunto masivo de datos de anuncios como “clickbait” o “benigno”. Dado que solo una pequeña fracción de los anuncios en producción son realmente clickbait, y el LLM no ajustado tiene una baja tasa de verdaderos positivos, este conjunto de datos inicial suele estar muy desequilibrado. Para identificar los ejemplos más informativos, el sistema agrupa las etiquetas “clickbait” y “benignas”. Crucialmente, identifica áreas donde estos grupos se superponen, lo que señala instancias en las que el LLM está más confundido o incierto acerca de la clasificación correcta. De estas regiones ambiguas, se seleccionan pares de ejemplos que están más cerca entre sí pero con diferentes etiquetas. Si es necesario para mantenerse dentro del presupuesto, el sistema prioriza los pares que representan una porción más grande del espacio de búsqueda. Este conjunto curado es altamente informativo, centrándose en ejemplos cerca del límite de decisión del modelo, y diverso, extrayendo de varias partes de ese límite. Estos ejemplos seleccionados se envían luego a expertos humanos para su etiquetado definitivo.

Las etiquetas proporcionadas por los expertos se dividen luego en dos conjuntos: uno para la evaluación del modelo y otro para el ajuste fino del LLM actual, creando la siguiente iteración del modelo. Este proceso iterativo continúa hasta que la alineación del modelo con los expertos humanos coincide con el acuerdo interno entre los propios expertos o se estanca, lo que indica que no es posible una mejora adicional.

Para los problemas de clasificación en la seguridad de anuncios, como la moderación de contenido o la detección de fraudes, a menudo no existe una “verdad fundamental” única debido a la ambigüedad inherente que requiere la interpretación de expertos. Por lo tanto, las métricas estándar como la precisión y la recuperación, que dependen de una verdad fundamental definitiva, no son adecuadas. En su lugar, los investigadores de Google emplean el Kappa de Cohen, una medida estadística que cuantifica el nivel de acuerdo entre dos anotadores independientes o, en este caso, entre el modelo y los expertos humanos, más allá de lo que podría ocurrir por puro azar. Una puntuación Kappa más cercana a 1 indica un fuerte acuerdo, mientras que 0 sugiere un acuerdo no mejor que el azar. Las puntuaciones superiores a 0.8 se consideran generalmente excepcionalmente buenas, y los valores superiores a 0.4 se consideran aceptables.

Para evaluar el nuevo proceso de curación, se realizaron experimentos utilizando dos LLM Gemini Nano de diferentes tamaños (1.800 millones y 3.250 millones de parámetros) en dos tareas de seguridad de anuncios de complejidad variable. Para comparaciones de referencia, estos modelos se ajustaron finamente utilizando aproximadamente 100.000 anotaciones de crowdsourcing, que típicamente tenían un desequilibrio de clase significativo (alrededor del 95 por ciento de etiquetas benignas). En las condiciones curadas, los mismos modelos se ajustaron finamente en múltiples rondas utilizando el nuevo proceso de aprendizaje activo. Los modelos se estabilizaron después de 5 a 6 iteraciones, requiriendo solo entre 250 y 450 ejemplos de ajuste fino etiquetados por expertos y entre 150 y 250 muestras de evaluación en total.

Los resultados demostraron una clara ventaja para el enfoque curado, especialmente con el modelo más grande. Mientras que el modelo de 1.800 millones de parámetros mostró un rendimiento comparable, aunque menor, tanto en las condiciones de referencia como en las curadas (puntuaciones Kappa alrededor de 0.24-0.25), el modelo de 3.250 millones de parámetros experimentó mejoras sustanciales de calidad con el nuevo proceso de curación. Para la tarea de menor complejidad, su puntuación Kappa saltó de 0.36 (referencia) a 0.56 (curada); para la tarea de mayor complejidad, mejoró de 0.23 a 0.38. Esto representa una mejora del 55-65 por ciento en la alineación con los expertos humanos, lograda utilizando tres órdenes de magnitud menos datos —unos pocos cientos de ejemplos en comparación con los 100.000 de la referencia.

Estos hallazgos subrayan que la curación cuidadosa de los conjuntos de datos LLM para centrarse en menos ejemplos, pero más informativos, puede producir un rendimiento de clasificador superior o equivalente con significativamente menos datos. Si bien los experimentos mostraron una reducción de tres órdenes de magnitud, los sistemas de producción con modelos aún más grandes han logrado hasta cuatro órdenes de magnitud menos de uso de datos. Sin embargo, tales ganancias dependen de anotaciones humanas de extremadamente alta calidad; se ha observado que una calidad de etiqueta superior a 0.8 en el Kappa de Cohen por pares es necesaria para superar de manera confiable los datos de crowdsourcing. Al combinar inteligentemente la capacidad de los LLM para explorar ampliamente un espacio problemático con la precisión de los expertos humanos para manejar ejemplos desafiantes, este proceso de curación ofrece una forma flexible y eficiente de superar el cuello de botella de los datos, particularmente crucial para dominios en rápida evolución como la seguridad de los anuncios.