Générer des Données VQA Synthétiques avec BLIP et PaliGemma
Dans le domaine de l’intelligence artificielle, en particulier pour des tâches comme la Réponse Visuelle aux Questions (VQA), la demande de jeux de données de haute qualité et à grande échelle se heurte souvent aux coûts et au temps prohibitifs associés à l’annotation manuelle. La génération de données synthétiques, exploitant les Modèles Vision-Langage (VLM) avancés, présente une solution convaincante. Ce premier volet d’une série en deux parties détaille une étape fondamentale dans la construction d’un tel jeu de données en utilisant une méthodologie “VLM-juge”. Ici, nous démontrons la génération initiale d’annotations VQA brutes par deux VLMs open-source éminents : BLIP de Salesforce et PaliGemma de Google.
Notre processus a commencé par l’acquisition d’une collection substantielle d’images pour servir de base à notre jeu de données synthétiques. Nous avons extrait 21 435 images de la division de validation d’un sous-ensemble plus petit du jeu de données VQAv2 complet. Ces images ont fourni le contexte visuel pour les tâches de questions-réponses ultérieures.
Une fois les images préparées, la phase suivante a consisté à exécuter l’inférence à l’aide du modèle BLIP (Bootstrapping Language-Image Pre-training) de Salesforce. Un ensemble de quatre questions génériques a été posé pour chaque image : “Que se passe-t-il dans cette image ?”, “Combien de personnes sont présentes dans l’image ?”, “Quels objets voyez-vous ?” et “Quel est le sujet principal de l’image ?”. Le modèle BLIP, configuré comme un pipeline de réponse visuelle aux questions et optimisé pour l’exécution sur GPU lorsque disponible, a traité chaque paire image-question, générant une seule réponse classée en tête. Les réponses pour les 21 435 images ont été systématiquement collectées et sauvegardées dans un fichier JSON, un processus qui, malgré l’utilisation d’un GPU A100, a nécessité environ 2,5 heures pour être complété.
Pour assurer l’accessibilité et la facilité d’utilisation pour la communauté de recherche élargie, ces annotations brutes générées par BLIP ont ensuite été converties au format standardisé Hugging Face Dataset. Cela a impliqué la transformation de la structure JSON imbriquée en une liste plate d’exemples, chacun comprenant une image, sa question correspondante et la réponse générée par le modèle. Il était crucial que le schéma du jeu de données soit explicitement défini pour charger correctement les données d’image plutôt que de simples chemins de fichiers, ainsi que les valeurs de chaîne pour les questions et les réponses. Le jeu de données résultant a ensuite été poussé vers le Hugging Face Hub, le rendant publiquement disponible pour de futures recherches et développements.
Suite aux annotations BLIP, un deuxième ensemble indépendant de réponses a été généré à l’aide du modèle PaliGemma de Google, spécifiquement la variante paligemma2-3b-mix-224
. Les mêmes 21 435 images ont été traitées avec l’ensemble identique de quatre questions, bien qu’adaptées au format de prompt préféré de PaliGemma : “Question :
En miroir du processus pour les sorties BLIP, les annotations PaliGemma ont également été transformées au format Hugging Face Dataset. Cela a impliqué le chargement des données JSON, leur restructuration en exemples individuels et l’application d’une étape de nettoyage pour s’assurer que les réponses étaient exemptes de formatage superflu ou d’éléments de prompt répétés. Le schéma étant correctement défini pour gérer les images et les champs de texte, ce deuxième jeu de données synthétiques a également été téléchargé sur le Hugging Face Hub, fournissant un ensemble complémentaire d’annotations VQA dérivées d’un VLM de pointe différent.
Cette phase initiale a permis d’établir avec succès deux jeux de données distincts de Réponse Visuelle aux Questions synthétiques, chacun peuplé de réponses générées par modèle pour plus de 21 000 images, dérivées respectivement de Salesforce BLIP et Google PaliGemma. Ces jeux de données représentent une étape significative vers une recherche VQA évolutive, atténuant le besoin d’une annotation manuelle coûteuse. La scène est maintenant prête pour la deuxième partie de cette série, où un troisième VLM assumera le rôle de “juge”, évaluant et organisant ces deux ensembles d’annotations pour produire un jeu de données VQA synthétique final de haute qualité grâce à une comparaison et une sélection automatisées.