アリババのOvis 2.5:オープンソース多モーダルLLMの画期的な進歩

Marktechpost

アリババのAIDC-AIチームは、最新の多モーダル大規模言語モデル(MLLM)であるOvis 2.5を発表し、オープンソース人工知能コミュニティに大きな波紋を広げています。90億および20億パラメータバージョンで利用可能なOvis 2.5は、特に高詳細な視覚情報と、長らくこの分野の課題であった複雑な推論タスクの処理において、MLLMの性能と効率のベンチマークを再定義する重要な技術的進歩をもたらします。

Ovis 2.5の革新の要は、ネイティブ解像度ビジョントランスフォーマー(NaViT)にあります。これにより、モデルは画像を元の多様な解像度で処理できるようになり、以前のタイル処理や強制的なサイズ変更に依存するアプローチとは大きく異なります。このような古い方法は、重要なグローバルコンテキストや複雑な詳細の損失を頻繁に引き起こしていました。複雑なチャートや自然画像の完全な整合性を維持することで、NaViTはOvis 2.5が視覚的に密なタスク、例えば科学図の解釈から精巧なインフォグラフィックやフォームの分析まで、優れた性能を発揮することを可能にします。

強化された視覚認識を超えて、Ovis 2.5は洗練されたトレーニングカリキュラムを用いて推論の複雑さに対処します。これは、自己修正と反省のために設計された「思考スタイル」のサンプルを組み込むことで、標準的な思考連鎖監視を超越します。このアプローチの集大成は、推論時にオプションの「思考モード」です。このモードを有効にすると、応答速度が若干犠牲になる可能性がありますが、段階的な精度が大幅に向上し、より深いモデルの内省が可能になります。これは、科学的な質問応答や複雑な数学的問題解決など、深遠な多モーダル分析を必要とするタスクにとって特に有利であることが証明されています。

Ovis 2.5の能力は、その印象的なベンチマーク結果に反映されています。より大きなOvis 2.5-9Bモデルは、OpenCompass多モーダルリーダーボードで平均78.3点を達成し、400億パラメータ未満のすべてのオープンソースMLLMの中で主要な競合相手としての地位を確立しました。よりコンパクトなOvis 2.5-2Bも、73.9点を記録し、軽量モデルの新たな標準を打ち立て、オンデバイスまたはリソース制約のあるアプリケーションにとって理想的な候補となっています。両モデルは、STEM推論(MathVista、MMMU、WeMathなどのデータセットで検証済み)、光学文字認識(OCR)およびチャート分析(OCRBench v2およびChartQA Proで確認済み)、視覚グラウンディング(RefCOCO、RefCOCOg)、そして包括的なビデオおよび複数画像理解(BLINK、VideoMME)といった専門分野で卓越した性能を示しています。AI開発者間のオンラインディスカッションでは、特にOCRと文書処理の進歩が賞賛されており、散乱した画像からテキストを抽出し、複雑なフォームを理解し、多様な視覚クエリを柔軟に処理するモデルの改善された能力が強調されています。

効率性もOvis 2.5のもう一つの特徴です。モデルは、多モーダルデータパッキングや高度なハイブリッド並列処理などの技術を通じてエンドツーエンドのトレーニングを最適化し、全体の処理能力を最大3倍または4倍に加速させます。さらに、軽量な20億パラメータ版は「小型モデル、高性能」という哲学を体現しており、高品質な多モーダル理解をモバイルハードウェアやエッジデバイスにまで拡張し、これにより高度なAI機能へのアクセスを民主化しています。

アリババのOvis 2.5モデルは、オープンソース多モーダルAIにおける大きな前進を意味します。ネイティブ解像度ビジョントランスフォーマーと、より深い推論のための革新的な「思考モード」を統合することにより、Ovis 2.5は主要なベンチマークで最先端の結果を達成するだけでなく、独自のAIソリューションとの性能差を縮めています。効率性とアクセシビリティに焦点を当てることで、高度な多モーダル理解が最先端の研究者と、実用的でリソース制約のあるアプリケーションの両方にとって手の届くものとなっています。