Liquid AIがLFM2-VLを発表:デバイス上で高速・高効率な視覚言語AIを実現

Venturebeat

Liquid AIは、スマートフォンやラップトップからウェアラブルデバイス、組み込みシステムまで、幅広いハードウェアに効率的に展開できるよう設計された、新しい視覚言語基盤モデルファミリーであるLFM2-VLを発表しました。これらのモデルは、低遅延のパフォーマンスと堅牢な精度を実現し、実世界のアプリケーションに大きな柔軟性をもたらします。

同社の確立されたLFM2アーキテクチャを基盤とするLFM2-VLは、その機能をマルチモーダル処理に拡張し、様々な解像度のテキストと画像入力をシームレスに統合します。Liquid AIは、これらの新しいモデルが、同等の視覚言語モデルの最大2倍のGPU推論速度を達成しつつ、標準ベンチマークで競争力のあるパフォーマンスを維持できると主張しています。Liquid AIの共同創設者兼CEOであるRamin Hasaniは、発表の中で同社の核となる哲学を強調し、「効率性が私たちの製品です」と述べました。彼は、4億4千万と16億パラメータの2つのオープンウェイトバリアントのリリースに言及し、それらのGPU速度の向上、ネイティブな512x512画像処理、およびより大きな画像のためのスマートパッチング機能を特筆しました。

LFM2-VLのリリースには、異なる運用ニーズに合わせて調整された2つの異なるモデルサイズが含まれます。LFM2-VL-450Mは、5億未満のパラメータを持つ高効率モデルで、特にリソースが厳しく制約された環境向けに設計されています。これを補完するのがLFM2-VL-1.6Bで、より高性能でありながら、単一GPUシステムやデバイスに直接展開するのに十分な軽量性を維持しています。両バリアントは、最大512x512ピクセルのネイティブ解像度で画像を処理するように設計されており、歪みや不必要なアップスケーリングを防ぎます。より大きな画像の場合、システムは重複しないパッチング技術を採用し、これらのセクションをグローバルコンテキスト用のサムネイルで補強することで、モデルが細かい詳細と広範なシーンの両方を識別できるようにします。

Liquid AIは、MITのコンピューター科学・人工知能研究所(CSAIL)の元研究者によって、広く使用されているトランスフォーマーモデルの限界を超えるAIアーキテクチャを開発するという野心的な目標を持って設立されました。彼らの代表的なイノベーションであるLiquid Foundation Models(LFMs)は、動的システム、信号処理、数値線形代数に由来する原理に基づいています。この基盤となるアプローチにより、テキスト、ビデオ、オーディオ、時系列、その他のシーケンシャル情報を含む多様なデータタイプを処理できる汎用AIモデルが生まれます。従来のアーキテクチャとは異なり、Liquidの方法論は、はるかに少ない計算リソースで同等またはそれ以上の性能を達成することを目指しており、推論中のリアルタイム適応性を可能にしながら、メモリ要件を最小限に抑えます。これにより、LFMは大規模なエンタープライズアプリケーションとリソースが限られたエッジ展開の両方に適しています。

プラットフォーム戦略をさらに強化するため、Liquid AIは2025年7月にLiquid Edge AI Platform(LEAP)を導入しました。LEAPは、開発者がモバイルおよび組み込みデバイス上で小型言語モデルを直接実行するプロセスを簡素化するために設計されたクロスプラットフォームSDKです。iOSとAndroidの両方でオペレーティングシステムに依存しないサポートを提供し、Liquid独自のモデルだけでなく、他のオープンソースの小型言語モデル(SLM)ともシームレスに統合します。このプラットフォームには、300MBというコンパクトなモデルを含む組み込みライブラリが搭載されており、最小限のRAMを搭載した最新のスマートフォンでも十分な小ささです。付属のアプリケーションApolloは、開発者が完全にオフラインでモデルをテストすることを可能にし、Liquid AIがプライバシー保護と低遅延AIに重点を置いていることに合致しています。LEAPとApolloは、AI実行の分散化、クラウドインフラストラクチャへの依存の低減、および開発者が実世界のシナリオ向けに最適化されたタスク固有のモデルを作成できるようにするという同社のコミットメントを強調しています。

LFM2-VLの技術設計は、言語モデルバックボーンとSigLIP2 NaFlexビジョンエンコーダ、およびマルチモーダルプロジェクタを組み合わせたモジュラーアーキテクチャを採用しています。プロジェクタ自体には、ピクセルアンシャッフルを備えた2層MLPコネクタが搭載されており、これは画像トークン数を削減し、処理スループットを向上させる効率的なメカニズムです。ユーザーは、最大画像トークン数やパッチ数などのパラメータを柔軟に調整でき、特定の展開ニーズに基づいて速度と品質のバランスを微調整できます。これらのモデルのトレーニングプロセスには、オープンデータセットと社内合成データの組み合わせから得られた約1000億のマルチモーダルトークンが関与しました。

性能面では、LFM2-VLモデルは、様々な視覚言語評価において競争力のあるベンチマーク結果を示しています。例えば、LFM2-VL-1.6Bモデルは、RealWorldQA(65.23)、InfoVQA(58.68)、OCRBench(742)で高いスコアを達成し、より広範なマルチモーダル推論タスクでも堅実なパフォーマンスを維持しました。推論テスト中、LFM2-VLは、1024x1024の画像と短いテキストプロンプトを含む標準的なワークロードにかけた場合、そのクラスで最速のGPU処理時間を記録しました。

LFM2-VLモデルは現在、Hugging Faceで公開されており、Colab経由でアクセス可能なファインチューニングのサンプルコードも提供されています。これらはHugging Face transformersおよびTRLと完全に互換性があります。これらのモデルは、カスタムの「LFM1.0ライセンス」の下でリリースされており、Liquid AIはApache 2.0の原則に基づいていると説明していますが、ライセンスの全文はまだ公開されていません。同社は、年間収益が1000万ドルを超える企業とそれ以下の企業で異なる条件で、特定の条件下での商用利用が許可されることを示しています。LFM2-VLにより、Liquid AIは高性能マルチモーダルAIへのアクセスを民主化し、能力を損なうことなく、デバイス上やリソースが限られた環境での展開を可能にすることを目指しています。