BLIPとPaliGemmaで合成VQAデータ生成
人工知能の分野、特にVisual Question Answering (VQA)のようなタスクにおいて、高品質で大規模なデータセットの需要は、手動アノテーションに伴う法外なコストと時間と頻繁に衝突します。高度な視覚言語モデル(VLM)を活用した合成データ生成は、魅力的な解決策を提示します。本2部構成シリーズの最初の記事では、「VLM-as-Judge」手法を用いてそのようなデータセットを構築する上での基礎的なステップを詳述します。ここでは、SalesforceのBLIPとGoogleのPaliGemmaという2つの著名なオープンソースVLMによる、生のVQAアノテーションの初期生成を実演します。
私たちのプロセスは、合成データセットの基盤となる大量の画像コレクションの取得から始まりました。VQAv2データセットの包括的なサブセットの検証分割から21,435枚の画像を抽出しました。これらの画像は、その後の質問応答タスクの視覚的コンテキストを提供しました。
画像が準備できた後、次のフェーズでは、SalesforceのBootstrapping Language-Image Pre-training (BLIP) モデルを使用して推論を実行しました。各画像に対して4つの一般的な質問が投げかけられました:「この画像で何が起こっていますか?」「画像に何人いますか?」「何が見えますか?」「この画像の主な被写体は何ですか?」。BLIPモデルは、視覚質問応答パイプラインとして構成され、利用可能な場合はGPU実行用に最適化されており、各画像と質問のペアを処理し、単一の最高ランクの回答を生成しました。21,435枚すべての画像に対する応答は体系的に収集され、JSONファイルに保存されました。このプロセスは、A100 GPUを活用したにもかかわらず、完了までに約2.5時間かかりました。
より広範な研究コミュニティにとってのアクセシビリティと使いやすさを確保するため、これらのBLIPが生成した生の注釈は、標準化されたHugging Face Dataset形式に変換されました。これには、ネストされたJSON構造を、画像、対応する質問、およびモデルが生成した回答で構成される例のフラットリストに変換することが含まれていました。重要なことに、データセットスキーマは、ファイルパスだけでなく画像データを正しくロードするために明示的に定義されており、質問と回答の文字列値も含まれていました。結果として得られたデータセットは、その後Hugging Face Hubにプッシュされ、さらなる研究開発のために公開されました。
BLIPのアノテーションに続き、GoogleのPaliGemmaモデル、特にpaligemma2-3b-mix-224
バリアントを使用して、2番目の独立した応答セットが生成されました。同じ21,435枚の画像が、PaliGemmaの推奨プロンプト形式「Question: <あなたの質問>\nAnswer:」に合わせて調整された同じ4つの質問セットで処理されました。この条件付き生成モデルは、画像とプロンプトを受け取り、回答を生成しました。その回答は、冗長なプロンプトテキストを削除するために後でクリーンアップされました。この広範な推論実行もA100 GPUで実行され、より長い4時間を要し、PaliGemmaの合成VQAアノテーションの完全なセットを含む別のJSONファイルが生成されました。
BLIPの出力プロセスを反映して、PaliGemmaのアノテーションも同様にHugging Faceデータセット形式に変換されました。これには、JSONデータのロード、個々の例への再構築、および回答に余分な書式設定や繰り返しのプロンプト要素がないことを確認するためのクリーンアップステップの適用が含まれていました。スキーマが画像とテキストフィールドを処理するように正しく定義されたため、この2番目の合成データセットもHugging Face Hubにアップロードされ、異なる最先端のVLMから派生した補完的なVQAアノテーションセットが提供されました。
この初期段階では、2つの異なる合成Visual Question Answeringデータセットが正常に確立されました。それぞれ21,000枚以上の画像に対するモデル生成の回答が格納されており、Salesforce BLIPとGoogle PaliGemmaからそれぞれ派生しています。これらのデータセットは、スケーラブルなVQA研究に向けた重要な一歩であり、高価な手動アノテーションの必要性を軽減します。本シリーズの第2部では、第3のVLMが「審査員」の役割を担い、これら2つのアノテーションセットを評価およびキュレーションし、自動比較と選択を通じて最終的な高品質な合成VQAデータセットを生成する準備が整いました。