テンセントX-Omni：オープンソースAIがGPT-4oの画像生成に挑む

テンセントは、高品質な画像を生成するために設計された新しい人工知能モデル「X-Omni」を発表しました。このモデルは、特に画像内のテキストを正確にレンダリングすることに重点を置いています。この革新は、X-OmniをOpenAIのGPT-4oのような既存のシステムに対する直接的な挑戦者として位置づけ、既存の画像生成アーキテクチャにおける一般的な弱点に対処する新しいアプローチを活用しています。

従来の自己回帰型AIモデルは、画像を構成要素ごとに順次構築するため、コンテンツを生成する際にエラーが蓄積されやすく、全体的な画像品質の低下につながることがよくありました。これに対抗するため、多くの現代システムはハイブリッド戦略を採用しており、高レベルのセマンティックプランニングには自己回帰型モデルを、複雑な最終画像作成には拡散モデルを組み合わせています。しかし、このハイブリッドアプローチには独自のハードルがあります。自己回帰コンポーネントによって生成されるセマンティックトークンが、拡散デコーダの期待とシームレスに整合しないことが多いのです。テンセントの研究チームは、この重要なギャップを埋めるために、洗練された強化学習フレームワークを採用し、X-Omniプロジェクトに着手しました。

X-Omniの核となるのは、セマンティックトークン生成を担当する自己回帰モデルと、ドイツのスタートアップBlack Forest Labsが開発したFLUX.1-dev拡散モデル（デコーダとして機能）の統合です。これら2つのコンポーネントを個別に学習させる従来のハイブリッドシステムとは異なり、X-Omniは統一された強化学習手法を採用しています。これにより、システムは協調的に学習することができ、評価パイプラインが画像品質に関するリアルタイムのフィードバックを提供します。この反復プロセスにより、自己回帰モデルは拡散デコーダがより効果的に解釈できるトークンを段階的に生成できるようになり、出力が着実に向上します。研究者たちは、わずか200回の学習ステップで、X-Omniが従来のハイブリッド学習方法の性能ベンチマークを上回ったと報告しています。

X-Omniのアーキテクチャはセマンティックトークン化に根ざしており、単純なピクセル操作を超越しています。SigLIP-VQトークナイザを使用して画像を16,384個の異なるセマンティックトークンに分解し、それぞれが粒状のピクセル詳細ではなく抽象的な概念を表します。X-Omniの基盤となる言語モデルは、アリババのオープンソースQwen2.5-7Bであり、画像処理に特化した追加のレイヤーで拡張されています。堅牢な学習と評価を確実にするため、テンセントは包括的な評価パイプラインを開発しました。これには、美的品質に関する人間の好みスコア、高解像度画像を評価するための専用モデル、プロンプトの忠実性を検証するためのQwen2.5-VL-32B視覚言語モデルが含まれます。画像内のテキストの正確性を評価するため、チームはGOT-OCR-2.0やPaddleOCRなどの確立されたOCRシステムに依拠しました。

X-Omniは、画像内にテキストを埋め込む点で特に優れています。標準ベンチマークでは、英語テキストのレンダリングで0.901という印象的なスコアを達成し、すべての同等システムを上回りました。中国語テキストについては、X-OmniはGPT-4oをわずかに上回ることに成功しました。より長い文章での能力を厳密にテストするため、チームは新しいLongTextベンチマークを導入しました。このベンチマークでは、X-Omniはほとんどの競合他社、特に中国語コンテンツにおいて明確なリードを示しました。テキスト以外でも、X-Omniは一般的な画像生成において強力な性能を発揮し、DPGベンチマークで87.65点を獲得しました。これはすべての「統一モデル」の中で最高であり、GPT-4oをわずかに上回っています。このモデルはさらに画像理解タスクでも熟練度を示し、OCRBenchでは一部の専門モデルをも凌駕しました。

X-Omniのいくつかの競合他社に対する性能向上が漸進的である場合が多い一方で、その重要性は、革新的な強化学習アプローチと、おそらくそれ以上に、競合他社を含む様々な研究チームからの多様なオープンソースツールを戦略的に統合している点にあります。このモジュール式でオープンソースな哲学により、X-OmniはOpenAIのようなプロプライエタリな製品に対しても確固たる地位を築くことができます。テンセントはX-OmniをHugging FaceとGitHubの両方でオープンソースとして公開しており、急速に進化する生成AIの分野における協調的な進歩を促進する重要な一歩となっています。

テンセントX-Omni：オープンソースAIがGPT-4oの画像生成に挑む

関連記事

研究者がOpenAIのgpt-oss-20bを未加工・無検閲のベースモデルに変革

Skywork UniPic 2.0 オープンソース：統合マルチモーダルAIの画期的な進歩

Ai2のMolmoAct：3D推論AIがロボティクスでNvidiaとGoogleに挑戦