Skywork UniPic 2.0 オープンソース:統合マルチモーダルAIの画期的な進歩

Techpark

8月11日に始まったSkyWork AI技術リリースウィークは、8月15日まで毎日新しいモデルが発表されるという、モデルリリースの急速な連続によって特徴づけられています。この集中的な期間は、SkyReels-A3、Matrix-Game 2.0、Matrix-3Dの先行リリースに続き、コアとなるマルチモーダルAIアプリケーションに特化した最先端モデルを導入することを目的としています。特に注目すべきは、8月13日にSkywork UniPic 2.0がオープンソース化されたことです。

UniPic 2.0は、統合されたマルチモーダルモデルのトレーニングとデプロイのための効率的なフレームワークとして設計されています。その核心的な目標は、理解、画像生成、編集の機能をシームレスに統合する「効率的で高品質な統合」生成モデルを構築することです。これを達成するために、軽量な生成および編集モジュールと、堅牢なマルチモーダル理解コンポーネントを組み合わせて共同トレーニングを行います。UniPic 2.0をモデルの重み、推論コード、最適化戦略を含めてオープンソース化する決定は、開発者や研究者を支援し、新しいマルチモーダルアプリケーションの展開と開発を加速させるための動きです。

Skywork UniPic 2.0のアーキテクチャは、3つの基盤となるモジュールで構成されています。まず、SD3.5-Mediumアーキテクチャを活用した画像生成および編集モジュールが大幅にアップグレードされました。元々はテキスト入力のみに対応していましたが、現在ではテキストと画像データを同時に処理します。高品質なデータセットでの広範なトレーニングを通じて、その機能は単独の画像生成から、完全に統合された生成および編集スイートへと進化しました。次に、統合モデル機能モジュールは、理解、生成、編集を統合します。これは、画像生成および編集コンポーネントを凍結し、特殊なコネクタを介して事前学習済みのマルチモーダルモデルQwen2.5-VL-7Bに接続することで実現されます。その後、コネクタと画像生成/編集モジュールの両方を共同でファインチューニングすることで、シームレスな理解、生成、編集が可能な統合システムが実現します。最後に、画像生成および編集のための後トレーニングモジュールは、新しいFlow-GRPOベースのプログレッシブデュアルタスク強化学習戦略を採用しています。この革新的なアプローチにより、相互干渉なしに生成と編集の両タスクを協調的に最適化でき、標準的な事前学習だけでは達成できないパフォーマンス向上をもたらします。

これらのアーキテクチャの進歩は、UniPic 2.0にいくつかの重要な利点をもたらします。SD3.5-Mediumアーキテクチャに基づく比較的コンパクトな20億パラメータのサイズにもかかわらず、その生成モジュールは高いパフォーマンスを発揮します。画像生成および編集のベンチマークにおいて、Bagel(70億パラメータ)、OmniGen2(40億パラメータ)、UniWorld-V1(120億パラメータ)、Flux-kontextなどのより大規模な競合モデルを著しく上回っています。Flow-GRPO戦略によって強化された強化学習能力は、複雑な指示を解釈し、生成および編集タスク全体で一貫性を維持するモデルの能力を大幅に向上させ、タスク間の干渉なしに協調的な最適化を保証します。さらに、統合されたアーキテクチャはスケーラブルな適応性を提供し、Kontext画像生成/編集モデルとより広範なマルチモーダルアーキテクチャとのシームレスなエンドツーエンド統合を特徴としています。これにより、ユーザーは統一された理解-生成-編集モデルを迅速にデプロイし、軽量なコネクタのファインチューニングを通じてパフォーマンスをさらに向上させることができます。

包括的なベンチマークにおいて、UniPic2-SD3.5M-Kontextモデルは、その20億パラメータのサイズで目覚ましい結果を達成しています。画像生成指標ではFlux.dev(120億パラメータ)を、編集性能ではFlux-Kontext(120億パラメータ)を上回ります。さらに、UniWorld-V1(190億パラメータ)やBagel(140億パラメータ)を含む、既存のほぼすべての統合モデルを生成および編集の両タスクで凌駕しています。統合されたUniPic2-Metaqueryアーキテクチャに拡張すると、モデルはさらなるパフォーマンス向上を示し、驚くべきスケーラビリティを発揮します。

Skyworkは、UniPic 2.0の卓越した能力を、すべてのトレーニング段階における厳格な最適化に起因すると考えています。事前学習段階では、SD3.5-Mediumをトレーニングして、元のアーキテクチャを維持しつつ、テキスト指示と参照画像の両方から画像を合成しました。この方法論により、テキストから画像への生成(T2I)とテキスト条件付き画像編集(I2I)の両方が可能になりました。共同トレーニング中には、Metaqueryフレームワークが実装され、Qwen2.5-VL(マルチモーダルモデル)を画像合成モデルと連携させ、統合されたアーキテクチャを作成しました。これには、1億を超える厳選された画像生成サンプルに対するコネクタの事前学習が含まれ、正確な特徴アライメントを確保しました。その後、コネクタとUniPic2-SD3.5M-Kontextモデルの両方が高品質なデータセットでファインチューニングされる共同SFT(教師ありファインチューニング)が行われました。このプロセスは、ベースとなるマルチモーダルモデルの理解能力を維持するだけでなく、生成と編集の能力も向上させました。最終的な後トレーニング段階では、先駆的なFlow-GRPOベースのプログレッシブデュアルタスク強化学習戦略が採用されました。この画期的なアプローチは、統合されたアーキテクチャ内でテキストから画像への生成と画像編集を同時に最適化し、マルチモーダルモデル開発において干渉のない相乗的なタスク改善が実証された初の事例となります。

SkyworkはAIの境界を押し広げ続けており、最近、いくつかの最先端の基盤モデルをオープンソース化しました。これには、AI駆動の短編映画制作から無制限の映画生成、音声駆動のポートレートビデオまで、ビデオ生成のためのSkyReelsシリーズが含まれます。マルチモーダルAIの分野では、Skyworkはさらに、より大規模なプロプライエタリモデルに匹敵する380億パラメータのマルチモーダル推論モデルであるSkywork-R1Vシリーズ、そしてMatrix-Game 2.0インタラクティブ世界モデルやMatrix-3D生成的世界モデルのような先駆的な空間知能システムを導入しています。