SabiYarn: LLM pour langues peu dotées – Pré-entraînement efficace
Les grands modèles de langage (LLM) ont connu des avancées significatives ces dernières années, principalement grâce à l’augmentation de la taille des modèles et des données d’entraînement. Cette approche est très gourmande en ressources, coûtant souvent des millions de dollars et constituant un obstacle majeur à l’inclusion des langues à faibles ressources, qui manquent fréquemment de données et de financement pour les ressources informatiques.
Un nouvel article, « SabiYarn: Advancing Low-Resource Languages with Multi-task NLP Pre-Training », accepté à l’atelier AfricaNLP de l’ACL 2025, introduit une série de méthodes d’optimisation pour le pré-entraînement des LLM. Ces innovations ont permis d’entraîner un modèle fondamental multilingue de pointe pour les langues nigérianes sur un seul GPU de 24 Go. Une technique clé proposée est une stratégie de calcul de perte basée sur des masques, qui évite intelligemment de calculer la perte sur les tokens d’invite d’entrée déjà connus par le modèle. Cette méthode vise à garantir que la fonction de perte reflète précisément la véritable performance du modèle sur les tokens pertinents, évitant ainsi un gaspillage de calculs lors de la rétropropagation de pertes non pertinentes. Cet article explore en détail cette conception de pré-entraînement consciente des ressources et son impact sur les performances du modèle.
Le coût élevé des tokens d’invite dans les environnements à faibles ressources
Pendant le pré-entraînement, les LLM sont généralement entraînés via une tâche de modélisation du langage causal, prédisant le token suivant dans une séquence. Il s’agit d’un processus exigeant en calcul, impliquant des milliards de tokens, avec pour objectif de minimiser la perte d’entropie croisée entre les tokens prédits et réels par rétropropagation. Au cours de cet entraînement intensif, les modèles acquièrent diverses compétences, mémorisent des faits et construisent un modèle du monde complet.
Pour les modèles de pointe comme Llama 4 de Meta ou GPT-4 d’OpenAI, ce processus peut impliquer des milliers de GPU fonctionnant pendant des mois, effectuant plus de 10^25 opérations en virgule flottante (FLOPs). Prenons un exemple de traduction : étant donné la séquence “Translate English to Yoruba: I love rice. => Mo fẹ́ràn ìrẹsì,” un LLM standard est entraîné à prédire chaque token, de l’invite initiale (“Translate English to Yoruba:”) à la réponse réelle (“Mo fẹ́ràn ìrẹsì”). Bien que simple à implémenter, cette approche traite tous les tokens de manière égale, ce qui signifie qu’une part significative du calcul est consacrée à l’apprentissage de la prédiction de tokens statiques ou déjà connus comme faisant partie de l’invite. Bien qu’acceptable dans des environnements avec une puissance de calcul pratiquement illimitée, cela devient problématique sous contraintes de ressources. Si la moitié de la séquence d’entrée est une instruction inchangée, la moitié du calcul d’entraînement est potentiellement gaspillée sur un apprentissage redondant.
Intégrer la conscience de la tâche dans le pré-entraînement
En raison de sévères limitations de calcul, le projet SabiYarn n’a pas pu intégrer une étape de post-entraînement distincte, où les modèles sont généralement alignés sur les objectifs des utilisateurs à l’aide d’exemples supervisés et d’apprentissage par renforcement à partir de retours humains (RLHF). Ces étapes de post-entraînement sont cruciales pour que les modèles génèrent des réponses utiles et alignées, par exemple, répondre à « Comment allez-vous aujourd’hui ? » par « Je vais bien » au lieu de simplement compléter la séquence par un point d’interrogation.
Pour compenser l’absence de post-entraînement, l’équipe SabiYarn a intégré la conscience de la tâche directement dans la phase de pré-entraînement. Leur objectif était de permettre au modèle de généraliser au-delà de la simple prédiction du token suivant, vers la résolution de tâches spécifiques comme la reconnaissance d’entités nommées, l’analyse de sentiment et la traduction, entièrement par conditionnement basé sur des invites. Inspirés par l’article T5, ils ont conçu un schéma d’entraînement spécifique à la tâche utilisant des balises d’invite de type XML. Par exemple, une tâche de traduction de l’anglais vers le pidgin serait formatée comme <translate> let me call my father </translate>: Make I go call my Papa
.
Avec ce format structuré, une innovation essentielle a été de calculer la perte d’entropie croisée uniquement sur les tokens d’étiquette (« Make I go call my Papa »). Cela a été implémenté dans PyTorch en masquant les tokens d’invite dans le tenseur d’étiquettes à l’aide d’un indice d’ignorance (-100), que la fonction de perte cross_entropy
de PyTorch ignore par défaut.
Apprentissage ciblé : Seul ce qui compte
Un avantage inattendu de cette approche de masquage est l’amélioration de la concentration sur la tâche. Étant donné que le modèle ne rétropropage pas sur la partie d’entrée de la séquence, son signal d’apprentissage provient exclusivement des tokens pertinents pour la tâche. Dans un scénario de pré-entraînement typique où la perte est calculée sur chaque token, le modèle apprend à reproduire la structure de l’invite et les balises de tâche en même temps qu’il génère des sorties, diluant ainsi le signal d’apprentissage sur l’ensemble de la séquence.
Inversement, avec le masquage de la perte, le modèle traite toujours les connexions entrée-sortie via son mécanisme d’auto-attention pendant la passe avant. Cependant, le processus d’apprentissage crucial (rétropropagation) ne se produit que lors de la prédiction des tokens de sortie. Cela peut être comparé à la façon dont les humains apprennent une nouvelle langue : nous recevons l’entrée complète comme contexte, mais notre apprentissage se produit lorsque nous sommes corrigés sur notre traduction, et non sur la phrase d’entrée elle-même. En forçant le modèle à traiter les invites comme un contexte plutôt qu’une cible de prédiction, cette méthode oriente l’entraînement vers les mappages entrée-sortie et réduit la tendance à sur-apprendre le formatage des invites.
Impact sur la performance d’entraînement
Pour valider ces découvertes, les chercheurs ont mené une expérience en entraînant un modèle sur une tâche complexe de déchiffrement de phrases, comparant la perte masquée à la perte non masquée. La tâche impliquait de transformer des phrases grammaticalement incohérentes en formes cohérentes en utilisant les mêmes mots, par exemple, corriger « The equations expensive. show is optimization computationally that. » en « The equations show that optimization is computationally expensive. ». Les résultats ont montré que le modèle convergeait significativement plus vite sur la tâche lorsque la perte sur l’invite d’entrée n’était pas calculée. Ces gains d’efficacité sont substantiels et se cumulent sur toute la durée de l’entraînement, conduisant à une convergence accélérée.
Compromis du masquage
Bien que le masquage des tokens d’invite pour le calcul de la perte conserve les ressources de calcul et affine la concentration, il présente des compromis. L’exclusion des invites du signal d’apprentissage augmente le risque que le modèle ne s’adapte pas bien si la structure ou la formulation de l’invite change pendant l’inférence. Cependant, de tels compromis doivent être mis en balance avec les réalités des contraintes de ressources. Dans les scénarios d’entraînement à faibles ressources, les approches qui réduisent le calcul tout en préservant les performances des tâches principales sont souvent plus pratiques que les alternatives entièrement supervisées et gourmandes en ressources.
L’argument en faveur des LLM en langues africaines natives
Bien qu’une grande partie de la communauté africaine des LLM se soit concentrée sur l’adaptation de modèles pré-entraînés open source, l’entraînement d’un modèle fondamental à partir de zéro, comme cela a été fait dans SabiYarn, offre des avantages distincts. Cette approche permet la création de modèles qui n’héritent pas des biais culturels intégrés dans les corpus euro-américains. De plus, elle fournit des informations et des données de recherche inestimables concernant la tokenisation, l’apprentissage par transfert, les schémas linguistiques et les dynamiques d’entraînement spécifiquement pour les langues africaines.
Un aspect fréquemment négligé est le tokenizer, qui dicte comment les langues sont découpées en tokens pour le traitement LLM. L’entraînement de tokenizers personnalisés et spécifiques à la langue permet l’intégration de structures morphologiques et phonologiques uniques, telles que les diacritiques tonals en yoruba, qui portent une signification sémantique. Cela améliore également l’efficacité, car le tokenizer peut décomposer efficacement chaque langue en tokens qui reconnaissent des structures grammaticales utiles comme les affixes et la ponctuation, que le modèle peut ensuite exploiter pour des représentations significatives. En revanche, l’utilisation de tokenizers existants non entraînés sur les langues cibles conduit souvent à une mauvaise tokenisation, une représentation grammaticale inexacte, des longueurs de séquence gonflées et, en fin de compte, une performance dégradée, en particulier pour les modèles plus petits avec des exigences de calcul moindres.
Pour l’avenir, le groupe de recherche SabiYarn prévoit d’explorer des architectures LLM modernes, en intégrant le raisonnement, le suivi d’instructions et les stratégies de calcul au moment du test dans le cadre du pré-entraînement contraint par les ressources. Leurs travaux futurs incluent également des optimisations spécifiques au matériel pour l’entraînement et l’inférence, et l’extension de leurs efforts pour inclure un éventail encore plus large de langues africaines.