Google réduit les données de formation LLM par 10 000 grâce à l'IA

Research

Les Grands Modèles de Langage (LLM) montrent un grand potentiel pour des tâches complexes comme la classification de contenu publicitaire non sécurisé. L’identification de contenu qui viole les politiques publicitaires exige une compréhension approfondie du contexte et des nuances culturelles, des domaines où les LLM surpassent souvent les systèmes d’apprentissage automatique traditionnels. Cependant, le fine-tuning des LLM pour de tels défis complexes nécessite généralement de vastes quantités de données d’entraînement de haute fidélité, qui sont à la fois difficiles et coûteuses à acquérir. Ce défi est aggravé par la “dérive conceptuelle” – l’évolution continue des politiques de sécurité et l’émergence de nouvelles formes de contenu non sécurisé, nécessitant souvent un ré-entraînement coûteux sur des ensembles de données entièrement nouveaux. Par conséquent, minimiser les données requises pour l’entraînement est devenu un objectif critique.

Pour y remédier, Google Ads a développé un nouveau processus évolutif pour l’apprentissage actif. Cette approche innovante réduit drastiquement la quantité de données d’entraînement nécessaires au fine-tuning des LLM tout en améliorant significativement l’alignement du modèle avec les experts humains. Le processus peut être appliqué à des ensembles de données contenant des centaines de milliards d’exemples, identifiant itérativement uniquement les instances les plus précieuses pour l’annotation humaine, puis utilisant ces étiquettes fournies par les experts pour le fine-tuning du modèle. Lors des expériences, cette méthode a réduit l’échelle des données d’entraînement de 100 000 exemples à moins de 500, tout en augmentant l’alignement modèle-humain jusqu’à 65 %. Pour les modèles plus grands en production, des réductions encore plus importantes ont été observées, utilisant jusqu’à quatre ordres de grandeur moins de données tout en maintenant ou en améliorant la qualité.

Le processus de curation commence par un LLM initial, auquel, avec une formation spécifique minimale ou nulle, est donnée une instruction définissant le contenu d’intérêt – par exemple, “Cette publicité est-elle du clickbait ?” Ce LLM initial étiquette ensuite un ensemble de données massif de publicités comme étant soit du “clickbait”, soit “bénin”. Étant donné qu’une infime fraction des publicités en production sont véritablement du clickbait, et que le LLM non ajusté a un faible taux de vrais positifs, cet ensemble de données initial est généralement très déséquilibré. Pour identifier les exemples les plus informatifs, le système regroupe ensuite les étiquettes “clickbait” et “bénignes”. Il identifie de manière cruciale les zones où ces clusters se chevauchent, signalant les instances où le LLM est le plus confus ou incertain quant à la classification correcte. À partir de ces régions ambiguës, des paires d’exemples les plus proches les uns des autres mais avec des étiquettes différentes sont sélectionnées. Si nécessaire pour respecter le budget, le système priorise les paires qui représentent une plus grande portion de l’espace de recherche. Cet ensemble sélectionné est à la fois très informatif, se concentrant sur les exemples proches de la limite de décision du modèle, et diversifié, puisant dans diverses parties de cette limite. Ces exemples sélectionnés sont ensuite envoyés à des experts humains pour un étiquetage définitif.

Les étiquettes fournies par les experts sont ensuite divisées en deux ensembles : l’un pour l’évaluation du modèle et l’autre pour le fine-tuning du LLM actuel, créant ainsi la prochaine itération du modèle. Ce processus itératif se poursuit jusqu’à ce que l’alignement du modèle avec les experts humains corresponde à l’accord interne entre les experts eux-mêmes ou qu’il atteigne un plateau, indiquant qu’aucune amélioration supplémentaire n’est possible.

Pour les problèmes de classification dans la sécurité des annonces, tels que la modération de contenu ou la détection de fraude, il n’y a souvent pas de “vérité terrain” unique en raison d’une ambiguïté inhérente nécessitant une interprétation experte. Par conséquent, les métriques standard comme la précision et le rappel, qui dépendent d’une vérité terrain définitive, sont inadaptées. Au lieu de cela, les chercheurs de Google utilisent le Kappa de Cohen, une mesure statistique qui quantifie le niveau d’accord entre deux annotateurs indépendants ou, dans ce cas, entre le modèle et les experts humains, au-delà de ce qui pourrait se produire par pur hasard. Un score Kappa plus proche de 1 indique un fort accord, tandis que 0 suggère un accord pas meilleur que le hasard. Les scores supérieurs à 0,8 sont généralement considérés comme exceptionnellement bons, et les valeurs supérieures à 0,4 sont jugées acceptables.

Pour évaluer le nouveau processus de curation, des expériences ont été menées en utilisant deux LLM Gemini Nano de tailles différentes (1,8 milliard et 3,25 milliards de paramètres) sur deux tâches de sécurité des annonces de complexité variable. Pour les comparaisons de référence, ces modèles ont été affinés en utilisant environ 100 000 annotations participatives (crowdsourced), qui présentaient généralement un déséquilibre de classe significatif (environ 95 % d’étiquettes bénignes). Dans les conditions curées, les mêmes modèles ont été affinés sur plusieurs cycles en utilisant le nouveau processus d’apprentissage actif. Les modèles ont plafonné après 5 à 6 itérations, ne nécessitant au total qu’environ 250 à 450 exemples de fine-tuning étiquetés par des experts et 150 à 250 échantillons d’évaluation.

Les résultats ont démontré un avantage clair pour l’approche curée, en particulier avec le modèle le plus grand. Alors que le modèle de 1,8 milliard de paramètres a montré des performances comparables, bien que plus faibles, dans les conditions de référence et curées (scores Kappa autour de 0,24-0,25), le modèle de 3,25 milliards de paramètres a connu des améliorations de qualité substantielles avec le nouveau processus de curation. Pour la tâche de moindre complexité, son score Kappa a bondi de 0,36 (référence) à 0,56 (curé) ; pour la tâche de plus grande complexité, il s’est amélioré de 0,23 à 0,38. Cela représente une amélioration de 55 à 65 % de l’alignement avec les experts humains, obtenue en utilisant trois ordres de grandeur moins de données – quelques centaines d’exemples contre 100 000 dans la référence.

Ces découvertes soulignent qu’une curation minutieuse des ensembles de données LLM pour se concentrer sur moins d’exemples, mais plus informatifs, peut produire des performances de classifieur supérieures ou équivalentes avec significativement moins de données. Alors que les expériences ont montré une réduction de trois ordres de grandeur, les systèmes de production avec des modèles encore plus grands ont atteint jusqu’à quatre ordres de grandeur moins d’utilisation de données. De tels gains, cependant, dépendent d’annotations humaines d’une qualité extrêmement élevée ; une qualité d’étiquette supérieure à 0,8 Cohen’s Kappa par paires a été observée comme nécessaire pour surpasser de manière fiable les données participatives. En combinant intelligemment la capacité des LLM à explorer largement un espace problématique avec la précision des experts humains dans la gestion des exemples difficiles, ce processus de curation offre un moyen flexible et efficace de surmonter le goulot d’étranglement des données, particulièrement crucial pour des domaines en évolution rapide comme la sécurité des annonces.