Alignement Humain de SmolVLM avec DPO : L'Optimisation par Préférence Directe

Les modèles d’IA, en particulier les grands modèles de langage et de vision-langage (VLM), sont souvent confrontés à un défi critique : bien qu’ils puissent générer des réponses techniquement correctes, ces sorties peuvent manquer des qualités nuancées, semblables à celles de l’humain, que les utilisateurs désirent. Par exemple, un chatbot pourrait fournir des informations précises mais avec un ton excessivement robotique ou impoli, ou un VLM pourrait légender une image avec des détails non pertinents malgré la maximisation de ses scores de vraisemblance internes. Dans de tels scénarios, les méthodes traditionnelles de réglage fin supervisé sont insuffisantes car elles ne tiennent pas compte des préférences humaines ou de l’utilité subjective.

L’optimisation des préférences comble cette lacune en entraînant les modèles à distinguer et à sélectionner de “meilleures” réponses parmi un ensemble d’options, sur la base de jugements humains ou de proxy. Ce paradigme permet aux modèles de prioriser des qualités telles que la clarté, l’intelligence émotionnelle ou la sécurité, allant au-delà de la simple fluidité pour générer des sorties qui s’alignent plus étroitement avec l’intention humaine.

Bien que des méthodes comme l’apprentissage par renforcement à partir de rétroaction humaine (RLHF) et l’apprentissage par renforcement à partir de rétroaction de l’IA (RLAIF) aient joué un rôle déterminant dans l’alignement des modèles, elles introduisent souvent une complexité, une instabilité et des coûts de calcul significatifs. L’Optimisation par Préférence Directe (DPO) apparaît comme une alternative plus simple mais efficace, apprenant directement des données de préférence sans nécessiter un modèle de récompense distinct ou des boucles d’apprentissage par renforcement complexes. Cet article explore les principes de DPO et démontre son application dans le réglage fin du modèle SmolVLM pour un meilleur alignement humain.

Qu’est-ce que l’Optimisation par Préférence ?

L’optimisation par préférence englobe une catégorie de techniques de réglage fin conçues pour aligner les modèles d’apprentissage automatique, en particulier les modèles génératifs comme les modèles de langage (LM) et les modèles de vision-langage (VLM), avec les évaluations humaines ou proxy. Au lieu de simplement prédire le prochain jeton, le modèle est optimisé pour produire des sorties considérées comme “préférables” par un évaluateur, qui pourrait être un annotateur humain ou un autre modèle d’IA. Ceci est vital pour rendre l’IA générative plus utile, sûre et engageante dans les applications du monde réel.

À la base, l’optimisation par préférence implique de présenter à un modèle des paires de sorties (par exemple, une préférée, une rejetée) et d’ajuster ses paramètres internes pour augmenter la probabilité de générer la réponse préférée. Cette approche va au-delà de l’alignement rigide basé sur des règles, permettant un contrôle fin basé sur des jugements qualitatifs – une tâche dans laquelle les humains excellent mais que les machines n’apprennent pas intrinsèquement.

Types de Techniques

Apprentissage par Renforcement à partir de la Rétroaction Humaine (RLHF)
RLHF est une méthode largement adoptée pour l’alignement des grands modèles de langage, notamment utilisée dans des modèles comme ChatGPT. Elle implique un processus en trois étapes :

Réglage Fin Supervisé (SFT) : Un modèle de base initial est affiné sur un ensemble de données organisé de paires invite-réponse pour fournir un modèle fondamental.
Modélisation de la Récompense : Des annotateurs humains classent plusieurs sorties générées par le modèle SFT. Ces classements humains sont ensuite utilisés pour entraîner un “modèle de récompense” distinct qui apprend à attribuer des scores aux nouvelles sorties, imitant le jugement humain.
Optimisation de la Politique : Le modèle SFT est ensuite affiné à l’aide d’un algorithme d’apprentissage par renforcement, généralement l’Optimisation de Politique Proximale (PPO), pour maximiser les scores prédits par le modèle de récompense.

Bien que RLHF ait produit des capacités conversationnelles et de codage impressionnantes, son pipeline est gourmand en calcul et complexe, nécessitant l’entraînement de plusieurs modèles et un échantillonnage étendu pendant la boucle d’entraînement.

Apprentissage par Renforcement à partir de la Rétroaction de l’IA (RLAIF)
RLAIF adapte la structure RLHF mais remplace les annotateurs humains par un “modèle proxy de préférence” d’IA qui a été pré-entraîné sur des évaluations humaines existantes. Cela permet une généralisation évolutive des jugements de préférence, réduisant considérablement les coûts d’étiquetage humain. Bien que RLAIF accélère l’itération et réduit l’effort humain, il introduit le risque d’amplifier les biais existants du modèle. Malgré cela, il s’est avéré efficace dans les projets visant un alignement évolutif de l’IA.

Optimisation par Préférence Directe (DPO)
DPO est une méthode de réglage fin basée sur les préférences qui optimise directement la politique d’un modèle pour préférer certaines sorties à d’autres, sur la base du feedback humain. Contrairement à RLHF, DPO contourne la nécessité d’entraîner un modèle de récompense distinct et d’utiliser un algorithme d’apprentissage par renforcement. Au lieu de cela, il simplifie le processus en optimisant directement la probabilité du modèle de générer des réponses préférées par rapport à celles qui ne le sont pas. DPO intègre un poids d’importance dynamique par exemple qui empêche le modèle de dégénérer, ce qui peut se produire avec un objectif de rapport de probabilité naïf.

Optimisation par Préférence d’Identité (IPO)
IPO étend DPO en incorporant un terme de régularisation. Ce terme décourage le modèle de trop dévier d’un modèle de référence (généralement le modèle original réglé finement supervisé). Cela aide à maintenir la fluidité et les connaissances spécifiques à la tâche, prévenant le surapprentissage sur des données de préférence bruyantes ou éparses, et garantissant que l’alignement n’entraîne pas une dégradation des capacités fondamentales du modèle. Mathématiquement, IPO augmente la perte DPO avec une contrainte d’identité, intégrant la stabilité dans le processus d’apprentissage des préférences.

Optimisation de Politique Relative de Groupe (GRPO)
Introduite avec des modèles comme DeepSeek-R1, GRPO est une technique d’apprentissage par renforcement qui optimise le comportement du modèle en fonction des préférences relatives entre des groupes de réponses. Plutôt que de s’appuyer sur un seul signal de récompense ou des paires de préférences binaires, GRPO génère plusieurs réponses candidates pour une invite donnée et les évalue à l’aide de rétroactions automatisées, basées sur des règles ou heuristiques. Cela rend GRPO particulièrement adapté aux domaines avec des résultats vérifiables, tels que les mathématiques, la programmation ou les puzzles logiques, où l’exactitude peut être déterminée sans annotation humaine. GRPO échantillonne un groupe de réponses, attribue des scores à l’aide de règles automatisées, les classe relativement, puis applique une mise à jour de style PPO qui élimine le besoin d’une fonction de valeur, simplifiant l’entraînement.

Optimisation par Préférence Directe (DPO) en Détail

Un défi majeur avec le réglage fin de type RLHF pour les grands modèles de langage est sa complexité inhérente. Apprendre une fonction de récompense puis l’optimiser via l’apprentissage par renforcement conduit souvent à une instabilité, une surcharge computationnelle significative et des difficultés d’implémentation. L’Optimisation par Préférence Directe (DPO) offre une alternative puissante en éliminant le modèle de récompense distinct et en permettant l’optimisation directe de la politique finale en utilisant uniquement des comparaisons de préférences.

Des Récompenses aux Politiques : L’Insight du Changement de Variables

DPO commence par considérer la configuration classique de RLHF, qui vise à maximiser les récompenses attendues tout en maintenant la politique affinée proche d’une politique de référence (souvent le modèle affiné supervisé) via une contrainte de divergence KL. La politique optimale dans cette configuration est connue pour suivre une distribution de Boltzmann, pondérée par une fonction de récompense exponentielle. Le défi réside dans le fait que la fonction de récompense exacte et les termes de normalisation sont inconnus et coûteux à approximer.

L’idée clé de DPO est un “changement de variables”. En prenant le logarithme de l’équation de la politique optimale et en la réarrangeant, la fonction de récompense peut être réexprimée directement en termes de la politique elle-même. Cette vision “récompense-comme-politique” permet à DPO d’intégrer cette expression dans un modèle de préférence standard, tel que le modèle de Bradley-Terry. Ce modèle dépend généralement de la différence de récompenses entre deux réponses pour une entrée donnée. Lorsque l’expression de récompense basée sur la politique est substituée dans le modèle de Bradley-Terry, les termes de normalisation problématiques s’annulent, ce qui donne une probabilité de préférence entièrement exprimée en termes des politiques du modèle.

Fonction Objectif DPO

Avec cette formulation, la perte DPO peut être écrite comme une log-vraisemblance négative sur un ensemble de données de paires de réponses préférées et rejetées. Cette fonction objectif encourage directement le modèle à augmenter la log-probabilité des réponses préférées tout en diminuant la log-probabilité de celles qui sont rejetées. Un hyperparamètre, souvent appelé température inverse, contrôle la netteté de ces décisions de préférence. L’objectif mesure efficacement à quel point la politique du modèle actuel s’aligne sur les préférences humaines observées, pénalisant les instances où les réponses préférées sont moins probables que les réponses rejetées.

Comment fonctionne le gradient

L’examen du gradient de la perte DPO fournit une compréhension mécanistique de la façon dont le modèle est mis à jour. Si le modèle classe déjà correctement une réponse préférée au-dessus d’une réponse rejetée, le gradient sera faible, indiquant qu’un ajustement minimal est nécessaire. Cependant, si le modèle classe incorrectement une réponse préférée en dessous d’une réponse rejetée, le gradient sera plus grand, poussant le modèle plus fortement à favoriser la réponse préférée. Ce mécanisme de mise à jour est intrinsèquement autocorrectif et s’adapte dynamiquement à la gravité de l’inversion de préférence du modèle.

Comment DPO fonctionne en pratique

L’implémentation pratique de DPO implique trois étapes principales :

Création du jeu de données : Des complétions candidates sont échantillonnées pour une invite donnée, et une réponse préférée est identifiée, généralement par le biais de rétroaction humaine ou d’un mécanisme de score proxy.
Définir la politique de référence : Une politique de référence est établie, généralement le modèle affiné supervisé ou un modèle de base entraîné avec l’estimation du maximum de vraisemblance sur les complétions préférées.
Optimiser : La fonction objectif DPO est minimisée à l’aide de la descente de gradient standard, mettant à jour directement les paramètres du modèle pour les aligner avec les données de préférence.

Réglage Fin de SmolVLM à l’aide de DPO

Pour démontrer l’application pratique de DPO, nous pouvons affiner un modèle de vision-langage comme SmolVLM de Hugging Face. Pour cette implémentation, le jeu de données OpenBMB RLHF-V-Dataset, qui contient 5 733 paires de préférences humaines avec des corrections granulaires au niveau du segment pour diverses instructions (y compris des descriptions détaillées et des questions-réponses), est utilisé pour l’alignement.

Chargement de SmolVLM et Configuration de LoRA

Le processus commence par le chargement du modèle SmolVLM pré-entraîné et de son processeur correspondant. Pour rendre le réglage fin plus efficace et moins coûteux en calcul, l’Adaptation de Bas Rang (LoRA) est configurée et appliquée. LoRA est une technique de réglage fin économe en paramètres qui ajoute de petites matrices entraînables aux poids existants du modèle, réduisant considérablement le nombre de paramètres qui doivent être mis à jour pendant l’entraînement par rapport à un réglage fin complet.

Chargement et Formatage du Jeu de Données

Ensuite, le jeu de données OpenBMB RLHF-V-Dataset est chargé et divisé en ensembles d’entraînement et de test. Une fonction de formatage personnalisée est ensuite appliquée pour prétraiter les données. Cette fonction analyse le texte brut, le structure dans un format de type chat avec des rôles distincts d’“utilisateur” et d’“assistant”, et crée des entrées séparées pour les réponses choisies et rejetées. Le processeur du modèle est utilisé pour appliquer des modèles de chat à ces entrées textuelles. De plus, les images du jeu de données sont redimensionnées pour éviter les erreurs de mémoire insuffisante pendant le traitement. Cette transformation garantit que les données sont dans le bon format pour l’entraînement DPO, fournissant des réponses préférées et rejetées explicites pour chaque invite.

Réglage Fin DPO

Le modèle et l’ensemble de données étant préparés, le réglage fin DPO peut commencer. Les paramètres d’entraînement sont définis à l’aide d’un objet DPOConfig, spécifiant des détails tels que le répertoire de sortie, les tailles de lot, les étapes d’accumulation de gradient et le nombre d’époques d’entraînement. Une instance de DPOTrainer est ensuite initialisée avec le modèle chargé, la configuration LoRA configurée, les ensembles de données préparés et les arguments d’entraînement. La boucle d’entraînement se déroule, optimisant le modèle sur la base de la perte DPO. Pendant l’entraînement, il est observé que le modèle commence à attribuer des scores plus élevés aux réponses choisies dans l’ensemble de données de test. Par exemple, dans une observation, la précision de la récompense a atteint 62,5 % à la fin de la troisième époque, ce qui indique une amélioration de l’alignement. Cette précision devrait encore s’améliorer avec des durées d’entraînement plus longues et plus d’échantillons du jeu de données original. Après l’entraînement, le modèle affiné est sauvegardé.

Test du Modèle Réglé Finement

Enfin, le modèle SmolVLM affiné est testé sur de nouveaux exemples de l’ensemble de test. Une fonction utilitaire prépare les entrées de texte et d’image, génère des réponses à l’aide de la méthode generate du modèle, puis décode la sortie. Lors des tests sur une image et une invite échantillon, la réponse générée par le modèle est observée comme étant descriptive et factuellement précise, ressemblant étroitement à la réponse préférée plutôt qu’à celle rejetée du jeu de données original. Cette démonstration pratique met en évidence l’efficacité de l’algorithme DPO pour améliorer les réponses de l’IA afin qu’elles soient plus alignées et centrées sur l’humain.

Résumé

Le domaine de l’optimisation des préférences est crucial pour aligner les modèles d’IA avec les attentes humaines. Alors que les approches initiales comme RLHF et RLAIF reposent sur des boucles de rétroaction complexes, des stratégies plus récentes telles que l’Optimisation par Préférence Directe (DPO), l’Optimisation par Préférence d’Identité (IPO) et l’Optimisation de Politique Relative de Groupe (GRPO) font progresser le domaine. Chacune offre une méthode distincte pour interpréter et appliquer les préférences, GRPO introduisant notamment une structure basée sur les groupes pour des rétroactions diverses.

DPO se distingue par son fondement élégant. En transformant le problème traditionnel de maximisation de la récompense en un objectif d’apprentissage de politique direct grâce à un astucieux changement de variables, DPO élimine le besoin d’une modélisation explicite de la récompense, simplifiant le processus d’optimisation. Ce changement de perspective rend DPO de plus en plus favorisé pour les tâches d’alignement du monde réel en raison de son efficacité et de son efficience.

L’application pratique de DPO pour affiner le modèle SmolVLM démontre son utilité. Le processus implique le chargement et la préparation minutieux du modèle, le formatage d’un jeu de données de préférences et l’exécution des étapes de réglage fin DPO. Les résultats montrent que DPO améliore avec succès les réponses du modèle, les rendant plus alignées avec les préférences humaines. Cette démonstration pratique souligne le potentiel de DPO dans le développement de systèmes d’IA plus centrés sur l’humain.