SabiYarn: LLM-Training für Minderheitensprachen optimiert
Große Sprachmodelle (LLMs) haben in den letzten Jahren erhebliche Fortschritte gemacht, hauptsächlich durch die Skalierung von Modellgröße und Trainingsdaten. Dieser Ansatz ist extrem ressourcenintensiv, kostet oft Millionen von Dollar und stellt ein erhebliches Hindernis für die Einbeziehung ressourcenarmer Sprachen dar, denen es häufig sowohl an Daten als auch an Finanzmitteln für Rechenressourcen mangelt.
Ein neues Paper, „SabiYarn: Advancing Low-Resource Languages with Multi-task NLP Pre-Training“, das auf dem AfricaNLP-Workshop der ACL 2025 angenommen wurde, stellt eine Reihe von Optimierungsmethoden für das LLM-Vortraining vor. Diese Innovationen ermöglichten das Training eines hochmodernen mehrsprachigen Basismodells für nigerianische Sprachen auf einer einzigen 24-GB-GPU. Eine vorgeschlagene Schlüsseltechnik ist eine maskenbasierte Verlustberechnungsstrategie, die intelligent vermeidet, den Verlust auf Eingabe-Prompt-Token zu berechnen, die dem Modell bereits bekannt sind. Diese Methode zielt darauf ab, sicherzustellen, dass die Verlustfunktion die wahre Leistung des Modells bei relevanten Token genau widerspiegelt, wodurch eine Verschwendung von Rechenleistung durch die Rückpropagierung irrelevanter Verluste verhindert wird. Dieser Artikel befasst sich mit diesem rechenbewussten Vortrainingsdesign und seinen Auswirkungen auf die Modellleistung.
Die hohen Kosten von Prompt-Token in ressourcenarmen Umgebungen
Während des Vortrainings werden LLMs typischerweise durch eine kausale Sprachmodellierungsaufgabe trainiert, indem sie das nächste Token in einer Sequenz vorhersagen. Dies ist ein rechenintensiver Prozess, der Billionen von Token umfasst, mit dem Ziel, den Kreuzentropieverlust zwischen vorhergesagten und tatsächlichen Token durch Rückpropagation zu minimieren. Durch dieses umfangreiche Training erwerben Modelle verschiedene Fähigkeiten, speichern Fakten und bauen ein umfassendes Weltmodell auf.
Für Spitzenmodelle wie Metas Llama 4 oder OpenAIs GPT-4 kann dieser Prozess Tausende von GPUs umfassen, die monatelang laufen und über 10^25 Gleitkommaoperationen (FLOPs) ausführen. Betrachten Sie ein Übersetzungsbeispiel: Bei der Sequenz „Translate English to Yoruba: I love rice. => Mo fẹ́ràn ìrẹsì,“ wird ein Standard-LLM darauf trainiert, jedes Token vorherzusagen, vom anfänglichen Prompt („Translate English to Yoruba:“) bis zur tatsächlichen Antwort („Mo fẹ́ràn ìrẹsì“). Obwohl einfach zu implementieren, behandelt dieser Ansatz alle Token gleich, was bedeutet, dass erhebliche Rechenleistung darauf verwendet wird, Token vorherzusagen, die statisch sind oder bereits als Teil des Prompts bekannt sind. Während dies in Umgebungen mit praktisch unbegrenzter Rechenleistung akzeptabel ist, wird es unter Ressourcenbeschränkungen problematisch. Wenn die Hälfte der Eingabesequenz eine unveränderliche Anweisung ist, wird potenziell die Hälfte der Trainingsrechenleistung für redundantes Lernen verschwendet.
Integration des Aufgabenbewusstseins ins Vortraining
Aufgrund schwerwiegender Rechenbeschränkungen konnte das SabiYarn-Projekt keine separate Nachtrainingsphase integrieren, in der Modelle typischerweise mit benutzerorientierten Zielen mithilfe überwachter Beispiele und Reinforcement Learning aus menschlichem Feedback (RLHF) ausgerichtet werden. Solche Nachtrainingsphasen sind entscheidend, damit Modelle hilfreiche und ausgerichtete Antworten generieren, zum Beispiel auf „Wie geht es Ihnen heute?“ mit „Mir geht es gut“ zu antworten, anstatt die Sequenz lediglich mit einem Fragezeichen zu vervollständigen.
Um das Fehlen des Nachtrainings zu kompensieren, integrierte das SabiYarn-Team das Aufgabenbewusstsein direkt in die Vortrainingsphase. Ihr Ziel war es, das Modell zu befähigen, über die grundlegende Vorhersage des nächsten Tokens hinaus zu generalisieren, um spezifische Aufgaben wie die Erkennung benannter Entitäten, die Stimmungsanalyse und die Übersetzung vollständig durch prompt-basierte Konditionierung zu lösen. Inspiriert vom T5-Paper entwarfen sie ein aufgabenspezifisches Trainingsschema unter Verwendung von XML-ähnlichen Prompt-Tags. Zum Beispiel würde eine Englisch-Pidgin-Übersetzungsaufgabe als <translate> let me call my father </translate>: Make I go call my Papa
formatiert.
Mit diesem strukturierten Format bestand eine entscheidende Neuerung darin, den Kreuzentropieverlust nur auf die Label-Token („Make I go call my Papa“) zu berechnen. Dies wurde in PyTorch implementiert, indem die Prompt-Token im Label-Tensor mit einem Ignorier-Index (-100) maskiert wurden, den PyTorch’s cross_entropy
Verlustfunktion standardmäßig überspringt.
Fokussiertes Lernen: Nur was zählt
Ein unerwarteter Vorteil dieses Maskierungsansatzes ist ein verbesserter Aufgabenfokus. Da das Modell nicht auf dem Eingabeteil der Sequenz rückpropagiert, stammt sein Lernsignal ausschließlich von aufgabenrelevanten Token. In einem typischen Vortrainingsszenario, bei dem der Verlust auf jedem Token berechnet wird, lernt das Modell, die Prompt-Struktur und die Aufgaben-Tags neben der Generierung von Ausgaben zu reproduzieren, wodurch das Lernsignal über die gesamte Sequenz verwässert wird.
Umgekehrt verarbeitet das Modell beim Verlust-Masking die Eingabe-Ausgabe-Verbindungen weiterhin über seinen Selbstaufmerksamkeitsmechanismus während des Forward Pass. Der entscheidende Lernprozess (Rückpropagation) findet jedoch nur bei der Vorhersage der Ausgabe-Token statt. Dies lässt sich vergleichen mit der Art und Weise, wie Menschen eine neue Sprache lernen: Wir erhalten die vollständige Eingabe als Kontext, aber unser Lernen findet statt, wenn wir bei unserer Übersetzung korrigiert werden, nicht am Eingabesatz selbst. Indem das Modell gezwungen wird, Prompts als Kontext statt als Vorhersageziel zu behandeln, lenkt diese Methode das Training auf Eingabe-Ausgabe-Mappings und reduziert die Tendenz, sich an Prompt-Formatierungen zu überanpassen.
Auswirkungen auf die Trainingsleistung
Um diese Erkenntnisse zu validieren, führten die Forscher ein Experiment durch, bei dem ein Modell für eine komplexe Satzentschlüsselungsaufgabe trainiert wurde, wobei maskierter Verlust mit nicht maskiertem Verlust verglichen wurde. Die Aufgabe bestand darin, grammatisch inkohärente Sätze unter Verwendung derselben Wörter in kohärente Formen umzuwandeln, zum Beispiel „The equations expensive. show is optimization computationally that.“ zu „The equations show that optimization is computationally expensive.“ zu korrigieren. Die Ergebnisse zeigten, dass das Modell bei dieser Aufgabe signifikant schneller konvergierte, wenn der Verlust am Eingabe-Prompt nicht berechnet wurde. Diese Effizienzgewinne sind erheblich und summieren sich über den gesamten Trainingslauf, was zu einer beschleunigten Konvergenz führt.
Kompromisse beim Maskieren
Während das Maskieren von Prompt-Token für die Verlustberechnung Rechenleistung spart und den Fokus schärft, birgt es auch Kompromisse. Das Ausschließen von Prompts aus dem Lernsignal erhöht das Risiko, dass sich das Modell bei Änderungen der Prompt-Struktur oder -Formulierung während der Inferenz nicht gut anpasst. Solche Kompromisse müssen jedoch gegen die Realität der Ressourcenbeschränkungen abgewogen werden. In Trainingsszenarien mit geringen Ressourcen sind Ansätze, die Rechenleistung reduzieren und gleichzeitig die Kernaufgabenleistung erhalten, oft praktischer als vollständig überwachte, ressourcenintensive Alternativen.
Der Fall für native afrikanische Sprach-LLMs
Während sich ein Großteil der afrikanischen LLM-Gemeinschaft auf die Anpassung quelloffener vortrainierter Modelle konzentriert hat, bietet das Training eines Grundmodells von Grund auf, wie es bei SabiYarn geschieht, deutliche Vorteile. Dieser Ansatz ermöglicht die Schaffung von Modellen, die nicht die kulturellen Vorurteile erben, die in euroamerikanischen Korpora eingebettet sind. Darüber hinaus liefert er unschätzbare Forschungserkenntnisse und Daten zu Tokenisierung, Transferlernen, linguistischen Mustern und Trainingsdynamiken speziell für afrikanische Sprachen.
Ein oft übersehener Aspekt ist der Tokenizer, der vorschreibt, wie Sprachen für die LLM-Verarbeitung in Token zerlegt werden. Das Trainieren benutzerdefinierter, sprachspezifischer Tokenizer ermöglicht die Integration einzigartiger morphologischer und phonologischer Strukturen, wie z.B. Tonzeichen im Yoruba, die semantische Bedeutung tragen. Dies erhöht auch die Effizienz, da der Tokenizer jede Sprache effektiv in Token zerlegen kann, die nützliche grammatikalische Strukturen wie Affixe und Satzzeichen erkennen, die das Modell dann für bedeutungsvolle Repräsentationen nutzen kann. Im Gegensatz dazu führt die Verwendung bestehender Tokenizer, die nicht auf Zielsprachen trainiert wurden, oft zu einer schlechten Tokenisierung, ungenauer grammatikalischer Darstellung, aufgeblähten Sequenzlängen und letztendlich zu einer verschlechterten Leistung, insbesondere bei kleineren Modellen mit geringerem Rechenbedarf.
Mit Blick auf die Zukunft plant die SabiYarn-Forschungsgruppe, moderne LLM-Architekturen zu erforschen und dabei Reasoning, Befolgung von Anweisungen und Testzeit-Rechenstrategien innerhalb des ressourcenbeschränkten Vortrainings zu integrieren. Ihre zukünftige Arbeit umfasst auch hardwarespezifische Optimierungen für Training und Inferenz sowie die Ausweitung ihrer Bemühungen auf eine noch breitere Palette afrikanischer Sprachen.