TRL präsentiert neue VLM-Ausrichtung: GRPO, GSPO, MPO

Huggingface

Vision Language Models (VLMs), die darauf ausgelegt sind, sowohl Bilder als auch Text zu interpretieren und mit ihnen zu interagieren, entwickeln sich in ihren Fähigkeiten rasant weiter. Doch der entscheidende Schritt, diese leistungsstarken Modelle an nuancierte menschliche Präferenzen anzupassen, bleibt für ihren effektiven Einsatz von größter Bedeutung. Während die TRL-Bibliothek (Transformers Reinforcement Learning) zuvor Erfolge beim Post-Training von VLMs durch Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO) zeigte, verschieben die jüngsten Entwicklungen die Grenzen weiter.

Traditionell umfasste die VLM-Ausrichtung eine anfängliche SFT-Phase, um Modelle zum Befolgen von Anweisungen zu trainieren, gefolgt von DPO, um ihre Antworten basierend auf bevorzugten Daten zu verfeinern. DPO optimiert einen kontrastiven Verlust zwischen Paaren von Modellausgaben – einer „gewählten“ und einer „abgelehnten“ Antwort –, um das Modell zu gewünschten Verhaltensweisen zu leiten. Dieser paarweise Ansatz hat jedoch Einschränkungen, was die Entstehung anspruchsvollerer multimodaler Ausrichtungsmethoden wie Mixed Preference Optimization (MPO), Group Relative Policy Optimization (GRPO) und ihrer Variante Group Sequence Policy Optimization (GSPO) vorantreibt. Diese innovativen Techniken extrahieren reichere Signale aus Präferenzdaten und skalieren effektiver mit modernen, komplexen VLMs.

Mixed Preference Optimization (MPO) begegnet direkt den Mängeln, die bei Modellen auftreten, die ausschließlich mit SFT oder DPO ausgerichtet wurden. Während SFT-ausgerichtete Modelle bei Verteilungsverschiebungen in Denkaufgaben Schwierigkeiten haben können, erzeugen DPO-ausgerichtete Modelle manchmal repetitive Antworten oder es fehlt ihnen an kohärenten Begründungen. MPO löst dies, indem es DPO um eine kombinierte Verlustfunktion erweitert. Diese Funktion integriert den Standard-DPO-Präferenzverlust, einen Qualitätsverlust aus der Binary Classifier Optimization (BCO) und einen Generationsverlust aus SFT. Dieser dreigeteilte Ansatz hat signifikante Verbesserungen gezeigt, wobei eine Studie einen Gewinn von 6,2 Punkten auf dem anspruchsvollen MathVista-Benchmark berichtete, indem einfach auf diesen kombinierten Verlust umgestellt wurde. Die Integration von MPO in die TRLs DPOTrainer-Klasse ist optimiert und erfordert nur wenige Konfigurationszeilen, um die kombinierten Verlusttypen und ihre entsprechenden Gewichte zu aktivieren.

Ein weiterer signifikanter Fortschritt ist die Group Relative Policy Optimization (GRPO), die erstmals mit den großen Sprachmodellen DeepSeek Math und DeepSeek R1 eingeführt wurde. GRPO erweitert die Proximal Policy Optimization (PPO), indem sie Richtlinien-Updates über Gruppen oder Batches von Dialogtrajektorien durchführt. Dieses gruppenbasierte Lernen macht GRPO widerstandsfähiger gegenüber Rauschen in Belohnungssignalen, da sich das Rauschen tendenziell über die Gruppe mittelt. Indem GRPO ein breiteres Verständnis von „guten“ Antworten lernt, anstatt sich auf isolierte hochbelohnte Stichproben zu konzentrieren, liefert es hochleistungsfähige Modelle. TRL unterstützt jetzt GRPO für Vision Language Models und erfordert die Definition von Belohnungsfunktionen zur Validierung von Antwortformaten und Lösungsgenauigkeit. Zum Beispiel könnte eine Belohnungsfunktion prüfen, ob eine Antwort einer bestimmten Struktur entspricht, während eine andere die Genauigkeit der bereitgestellten mathematischen Lösung bewertet.

Aufbauend auf GRPO ist die Group Sequence Policy Optimization (GSPO) ein neuerer Reinforcement Learning Ausrichtungsalgorithmus. Von Qwen entwickelt, überwindet GSPO einige der Einschränkungen von GRPO, indem es ein stabileres Training durch die Berechnung von Importance-Sampling-Gewichten auf Sequenzebene statt pro Token gewährleistet. Diese Unterscheidung macht GSPO besonders relevant und vorteilhaft für Modelle im Stil von Mixture-of-Experts (MoE). Die neueste Version von TRL integriert GSPO und nutzt deren multimodale Unterstützung, mit einer Konfiguration, die GRPO ähnelt, aber zusätzliche Parameter wie importance_sampling_level="sequence" enthält, um ihre einzigartigen Eigenschaften zu ermöglichen.

Vorläufige Evaluierungen, wie das Fine-Tuning von Qwen2.5VL-3B auf Teilmengen von Daten, geben einen Einblick in die Wirksamkeit dieser neuen Methoden. Obwohl diese „Vibe-Check“-Vergleiche keine erschöpfenden Benchmarks sind, zeigen sie einen deutlichen Unterschied. Ein Basismodell könnte mit komplexen geometrischen Problemen kämpfen, zirkuläres Denken aufweisen oder die richtige Antwort innerhalb der gegebenen Auswahl nicht finden. MPO, obwohl noch zögerlich, beginnt einen strukturierteren Ansatz zu zeigen. Entscheidend ist, dass GRPO- und GSPO-Ausgaben konsistent direktere, kohärentere und genauere Begründungen liefern, die oft direkt zur richtigen Lösung führen, indem die entsprechenden geometrischen Theoreme angewendet werden, im Gegensatz zu den explorativen und oft falschen Versuchen des Basismodells.

Um die Nutzung dieser fortschrittlichen Ausrichtungsmethoden zu erleichtern, hat TRL vLLM, eine Hochdurchsatz-Inferenz-Engine, integriert. Diese Integration ist entscheidend für Online-Ausrichtungsmethoden, die die Generierung von Stichproben während des Trainings erfordern. vLLM kann in zwei Hauptmodi betrieben werden: „Colocate“, bei dem es innerhalb desselben Prozesses wie der Trainings-Loop läuft und GPU-Ressourcen teilt, oder „Server“, der es vLLM ermöglicht, als separater Dienst zu laufen, den der Trainingsprozess abfragen kann. Diese Flexibilität, gepaart mit der Unterstützung für vLLM mit dem Hugging Face Transformers Backend, erhöht die Effizienz und Skalierbarkeit von VLM-Ausrichtungsworkflows innerhalb von TRL erheblich.

Diese neuen multimodalen Ausrichtungsmethoden in TRL stellen einen bedeutenden Fortschritt bei der Verfeinerung von Vision Language Models dar. Indem sie über einfache paarweise Präferenzen hinausgehen, um reichere Signale und robustere Optimierungstechniken zu nutzen, ermöglichen sie Entwicklern den Bau von VLMs, die nicht nur verstehen, sondern auch mit größerer Genauigkeit, Kohärenz und Übereinstimmung mit menschlichen Absichten reagieren.