Qwen-Image-Edit:セマンティック・外観画像編集のための先進AI
マルチモーダル人工知能における重要な進歩として、アリババの通義(Qwen)チームは、堅牢な200億パラメータのQwen-Image基盤モデルをベースにした、指示ベースの画像編集モデル「Qwen-Image-Edit」を発表しました。2025年8月にリリースされたこの新しいイテレーションは、セマンティック編集と外観編集の両方で洗練された機能を提供しつつ、Qwen-Imageが持つ英語と中国語の複雑なテキストレンダリングにおける卓越した強みを維持しています。通義千問(Qwen Chat)との統合およびHugging Faceを通じた提供は、初期の知的財産デザインからAI生成アートワークにおける複雑なエラー修正に至るまで、プロフェッショナルなコンテンツ制作を民主化することを目指しています。
Qwen-Image-Editの技術的基盤は、マルチモーダル拡散トランスフォーマー(MMDiT)アーキテクチャを拡張したものです。このフレームワークには、包括的なテキスト条件付けのためのQwen2.5-VLマルチモーダル大規模言語モデル(MLLM)、効率的な画像トークン化のための変分オートエンコーダ(VAE)、そして結合モデリングの中央処理ユニットとしてのMMDiT自体が組み込まれています。編集タスクにおける重要な革新は、そのデュアルエンコーディングメカニズムです。入力画像は、高レベルのセマンティック理解のためにQwen2.5-VLによって、そして低レベルの再構築の詳細を捕捉するためにVAEによって同時に処理されます。これらの異なる特徴セットは、MMDiTの画像ストリーム内で連結され、セマンティックな一貫性(姿勢変更時のオブジェクト識別の維持など)と視覚的な忠実度(未変更領域をそのままにするなど)の間の繊細なバランスを可能にします。さらに適応性を高めるため、マルチモーダルスケーラブルRoPE(MSRoPE)位置エンコーディングは、「フレーム次元」で拡張され、編集前と編集後の画像を区別できるようになりました。これは、複雑なテキスト-画像-から-画像(TI2I)編集タスクにとって極めて重要な機能です。テキストリッチなデータセットで特別にファインチューニングされたVAEは、優れた再構築品質を示し、一般的な画像で33.42、テキスト量の多いビジュアルで驚異的な36.63のピーク信号対雑音比(PSNR)を達成し、FLUX-VAEやSD-3.5-VAEのような確立されたモデルを凌駕しています。これらのアーキテクチャの改良により、Qwen-Image-Editは、元のフォント、サイズ、スタイルを細心の注意を払って維持しながら、洗練されたバイリンガルテキスト編集を実行できます。
Qwen-Image-Editは、画像操作の2つの主要な領域で優れています。外観編集では、正確な低レベルの視覚調整を容易にし、ユーザーが特定の要素を追加、削除、または変更できるようにします。例えば、反射のある看板をリアルに埋め込んだり、個々の髪の毛を微妙に除去したりすることができ、周囲の領域を誤って変更することはありません。同時に、そのセマンティック編集機能は、高レベルの概念的変更を可能にし、知的財産作成などのタスクをサポートします。これには、マスコットをキャラクターの一貫性を保ちながらさまざまなMBTIテーマの絵文字に適応させることが含まれます。また、高度なオブジェクト回転やスタイル転送も実行でき、ポートレートをスタジオジブリのアニメーションの独特な美学に変換し、そのすべてにおいてセマンティックな整合性と一貫したピクセル変更を保証します。際立った特徴は、中国語と英語の両方をサポートする正確なテキスト編集です。ユーザーは画像内のテキストを直接追加、削除、または変更でき、バウンディングボックスを介して書道のエラーを修正したり、ポスターの単語を変更したりする際に、常に元のタイポグラフィ属性を保持します。このモデルはさらに「連鎖編集」をサポートしており、複雑な漢字を完璧な精度が達成されるまで段階的に修正するなど、反復的な修正が可能です。オブジェクトやシーン全体を高忠実度で回転させる180度の新規視点合成を実行する能力は特に注目に値し、GSOベンチマークで15.11のPSNRを達成しています。このスコアは、CRMのような専門モデルさえも上回っています。
このモデルの堅牢な性能は、広範なトレーニングとデータパイプラインの直接的な結果です。Qwen-Image-Editは、Qwen-Imageの細心の注意を払ってキュレーションされたデータセットを活用しています。これには、自然(55%)、デザイン(27%)、人物(13%)、合成(5%)といった多様なドメインにわたる数十億の画像-テキストペアが含まれています。テキスト-から-画像(T2I)、画像-から-画像(I2I)、およびテキスト-画像-から-画像(TI2I)の目的を統合するマルチタスクトレーニングパラダイムを採用しています。厳格な7段階のフィルタリングパイプラインは、最適な品質とバランスのためにこのデータを洗練し、中国語の漢字に多いロングテール問題に対処するために革新的な合成テキストレンダリング戦略(Pure、Compositional、Complex)を組み込んでいます。トレーニングプロセスは、スケーラビリティのためにプロデューサー-コンシューマーフレームワーク内でフローマッチングを使用し、その後、DPOやGRPOのような教師ありファインチューニングおよび強化学習技術を用いて、モデルを人間の好みに合わせます。特定の編集タスクでは、新規視点合成や深度推定などの機能を統合し、DepthProを教師モデルとして採用しており、これが連鎖編集による書道エラー修正などの分野での強力な性能に貢献しています。
ベンチマーク評価において、Qwen-Image-Editは、画像編集に関する複数の公開ベンチマークで最先端の結果を示しています。GEdit-Bench-ENでは全体で7.56点、GEdit-Bench-CNでは7.52点を獲得し、GPT Image 1(7.53 EN、7.30 CN)やFLUX.1 Kontext [Pro](6.56 EN、1.23 CN)などの競合他社を上回りました。ImgEditでの性能は全体で4.27点を記録し、特にオブジェクトの置換(4.66点)とスタイルの変更(4.81点)で強みを発揮しました。深度推定では、KITTIで0.078の絶対相対誤差(AbsRel)を達成し、DepthAnything v2などの主要モデルと競合する結果となりました。AI Arenaで実施された人間による評価では、そのベースモデルが利用可能なAPIの中で3位に位置付けられ、特にテキストレンダリングにおける優れた指示追従能力と多言語忠実度が強調されました。
開発者やクリエイターにとって、Qwen-Image-EditはHugging Face Diffusersを通じて簡単にデプロイでき、合理化された統合プロセスを提供します。さらに、Alibaba CloudのModel Studioは、スケーラブルな推論のためのAPIアクセスを提供しています。Apache 2.0ライセンスの下で、トレーニングコードはGitHubで公開されています。このアクセシビリティは、AI駆動デザインにおけるイノベーションを促進するという広範なコミットメントを強調しています。Qwen-Image-Editは、視覚-言語インターフェースにおける大きな飛躍を表しており、クリエイターにとってよりシームレスで正確なコンテンツ操作を可能にします。視覚コンテンツの理解と生成に対する統一されたアプローチは、将来的にビデオや3Dドメインへの拡張における刺激的な可能性を示唆しており、AI駆動デザインアプリケーションにおける新たなフロンティアを切り開くことが期待されます。