アリババのQwen画像モデル、高度な視覚・意味編集機能を獲得
アリババは、Qwen画像モデルを大幅に強化し、画像の視覚的および意味的な操作を可能にする新しい編集ツールを発表しました。Qwen-Image-Editと名付けられたこの最新版は、アリババの200億パラメータを持つQwen-Imageモデルの基盤の上に構築されており、高度な機能を提供するために二股に分かれた処理アプローチを統合しています。洗練された意味制御のためのQwen2.5-VLと、視覚的外観を管理するための変分オートエンコーダ(VAE)を組み合わせていますが、そのアーキテクチャの具体的な技術的詳細はまだ明らかにされていません。
このシステムは、軽微な修正から複雑な意味的変換まで、広範な画像変更に対応するように設計されています。「外観編集」モードでは、ユーザーは画像の特定の領域を変更しながら、周囲の領域は手付かずのままにすることができます。対照的に、「意味編集」では、画像全体にわたるより広範なピクセルレベルの変更が可能であり、主要な被写体の一貫性と識別性を維持することが重要です。
アリババはQwen-Image-Editの様々な実用的なアプリケーションを披露しました。例えば、意味編集機能は、カピバラのマスコットの多様なバージョンを作成することで、新しい知的財産コンテンツを生成できることを示しています。画像のピクセルの大部分が変更されても、キャラクターは明確に識別可能です。その他の創造的な用途には、オブジェクトの新しい視点を生成すること(例:90度または180度回転させる)、および独自のAアバターを作成するためにスタイル変換を適用すること(例:肖像画をスタジオジブリの独特のアニメーションスタイルを思わせる画像に変換する)が含まれます。これらに加えて、このモデルは、リアルな反射を持つ標識の追加、迷子の髪の毛の綿密な除去、テキストの色の変更、背景や衣服の修正など、詳細な編集を実行できます。
Qwen-Image-Editの際立った特徴は、中国語と英語の両方をサポートする堅牢なバイリンガルテキスト編集機能です。ユーザーは、元のフォント、サイズ、および全体的なスタイルを保持しながら、画像内のテキストをシームレスに追加、削除、または変更できます。このシステムでは、ユーザーが不正確または不要なテキストの周りにバウンディングボックスを定義して、正確な更新を行うことができます。モデルがまれな文字や珍しい文字で困難に遭遇することがありますが、ステップバイステップの改善プロセスをサポートしており、ユーザーは特定の問題箇所をマークし、満足するまで結果を繰り返し改善することができます。
アリババは、Qwen-Image-Editが公開されている画像編集ベンチマークで最先端の性能を達成していると主張していますが、具体的な指標は開示されていません。このモデルは現在、Qwen Chat内の「画像編集」機能を通じてアクセスでき、Github、Hugging Face、Modelscopeなどのプラットフォームでも利用可能であり、開発者やユーザーに広く提供されています。
アリババのこの進歩は、AIにおけるターゲットを絞った画像編集とテキストレンダリングの急速な進歩を強調しています。これまで、AIモデルが画像の特定の部分のみを変更し、他の要素を意図せずに破壊しないようにすることは、大きな課題でした。Black Forest LabsがそのFlux.1 Contextモデルでテキストから画像への生成と編集を組み合わせることでこの分野を探求している他のプレーヤーもいますが、複雑な編集シーケンスで目に見えるアーティファクトを示したり、プロンプトの精度に苦労したりするものもあります。Qwen-Image-Editは、これらの持続的な課題に対処する上で実質的な飛躍を表しており、画像コンテンツに対するより正確で多用途な制御を提供します。