Synthetische VQA-Daten mit BLIP & PaliGemma generieren
Im Bereich der Künstlichen Intelligenz, insbesondere bei Aufgaben wie Visual Question Answering (VQA), kollidiert der Bedarf an hochwertigen, groß angelegten Datensätzen oft mit den unerschwinglichen Kosten und dem Zeitaufwand, die mit manueller Annotation verbunden sind. Die Generierung synthetischer Daten, die fortschrittliche Vision-Language Models (VLMs) nutzt, stellt eine überzeugende Lösung dar. Dieser erste Teil einer zweiteiligen Serie beschreibt einen grundlegenden Schritt beim Aufbau eines solchen Datensatzes unter Verwendung einer “VLM-als-Richter”-Methodik. Hier demonstrieren wir die anfängliche Generierung roher VQA-Annotationen durch zwei prominente Open-Source-VLMs: Salesforce’s BLIP und Googles PaliGemma.
Unser Prozess begann mit dem Erwerb einer beträchtlichen Sammlung von Bildern, die als Grundlage für unseren synthetischen Datensatz dienen sollten. Wir extrahierten 21.435 Bilder aus dem Validierungs-Split eines kleineren Teilmengen des umfassenden VQAv2-Datensatzes. Diese Bilder lieferten den visuellen Kontext für die nachfolgenden Fragen-Antworten-Aufgaben.
Nachdem die Bilder vorbereitet waren, umfasste die nächste Phase die Durchführung der Inferenz mithilfe von Salesforce’s Bootstrapping Language-Image Pre-training (BLIP) Modell. Für jedes Bild wurden vier generische Fragen gestellt: „Was passiert in diesem Bild?“, „Wie viele Personen sind auf dem Bild?“, „Welche Objekte siehst du?“ und „Was ist das Hauptmotiv des Bildes?“. Das BLIP-Modell, das als Visual-Question-Answering-Pipeline konfiguriert und bei Verfügbarkeit für die GPU-Ausführung optimiert wurde, verarbeitete jedes Bild-Frage-Paar und generierte eine einzige, am höchsten bewertete Antwort. Die Antworten für alle 21.435 Bilder wurden systematisch gesammelt und in einer JSON-Datei gespeichert, ein Prozess, der trotz der Nutzung einer A100-GPU etwa 2,5 Stunden in Anspruch nahm.
Um die Zugänglichkeit und Benutzerfreundlichkeit für die breitere Forschungsgemeinschaft zu gewährleisten, wurden diese rohen, von BLIP generierten Annotationen anschließend in das standardisierte Hugging Face Dataset-Format konvertiert. Dies umfasste die Umwandlung der verschachtelten JSON-Struktur in eine flache Liste von Beispielen, die jeweils ein Bild, die entsprechende Frage und die vom Modell generierte Antwort umfassten. Entscheidend war, dass das Datensatzschema explizit definiert wurde, um Bilddaten korrekt zu laden und nicht nur Dateipfade, zusammen mit String-Werten für Fragen und Antworten. Der resultierende Datensatz wurde anschließend in den Hugging Face Hub hochgeladen und somit für weitere Forschung und Entwicklung öffentlich zugänglich gemacht.
Nach den BLIP-Annotationen wurde ein zweiter, unabhängiger Satz von Antworten mithilfe von Googles PaliGemma-Modell generiert, insbesondere der Variante paligemma2-3b-mix-224
. Dieselben 21.435 Bilder wurden mit dem identischen Satz von vier Fragen verarbeitet, obwohl sie an PaliGemmas bevorzugtes Prompt-Format angepasst wurden: “Question:
Analog zum Prozess für die BLIP-Ausgaben wurden die PaliGemma-Annotationen ebenfalls in das Hugging Face Dataset-Format umgewandelt. Dies umfasste das Laden der JSON-Daten, deren Umstrukturierung in einzelne Beispiele und die Anwendung eines Bereinigungsschritts, um sicherzustellen, dass die Antworten frei von überflüssiger Formatierung oder wiederholten Prompt-Elementen waren. Da das Schema korrekt für die Verarbeitung von Bildern und Textfeldern definiert war, wurde auch dieser zweite synthetische Datensatz in den Hugging Face Hub hochgeladen, wodurch ein ergänzender Satz von VQA-Annotationen bereitgestellt wurde, die von einem anderen hochmodernen VLM abgeleitet wurden.
Diese Anfangsphase etablierte erfolgreich zwei verschiedene synthetische Visual Question Answering-Datensätze, die jeweils mit modellgenerierten Antworten für über 21.000 Bilder gefüllt sind, abgeleitet von Salesforce BLIP bzw. Google PaliGemma. Diese Datensätze stellen einen bedeutenden Schritt in Richtung skalierbarer VQA-Forschung dar und mindern die Notwendigkeit kostspieliger manueller Annotation. Die Bühne ist nun bereitet für den zweiten Teil dieser Serie, in dem ein drittes VLM die Rolle eines “Richters” übernehmen wird, um diese beiden Sätze von Annotationen zu bewerten und zu kuratieren, um durch automatisierte Vergleich und Auswahl einen finalen, hochwertigen synthetischen VQA-Datensatz zu produzieren.