テンセントのHunyuan-Large-Vision:中国トップのマルチモーダルAIモデル
テンセントは、中国の競争の激しいAI分野で急速に最前線に躍り出た新しいマルチモーダル人工知能モデル、Hunyuan-Large-Visionを発表しました。このモデルは現在、LMArena Vision Leaderboardの中国勢をリードし、GPT-5やGemini 2.5 Proといったトップティアの西洋モデルのすぐ後ろに位置しています。
洗練された混合専門家(mixture-of-experts)アーキテクチャに基づいて構築されたHunyuan-Large-Visionは、驚異的な3890億のパラメータを誇り、そのうち520億が動作中にアクティブに利用されます。この設計により、モデルは特定のタスクに最も関連性の高いコンポーネントのみを選択的に活性化させることができ、効率とパフォーマンスが向上します。その能力は、それ自体が主要なモデルであるClaude Sonnet 3.5に匹敵すると報じられています。OpenCompass Academic Benchmarkにおいて、テンセントはHunyuan-Large-Visionが平均79.5のスコアを達成したと報告しており、その堅牢な分析能力を示しています。
この新モデルは、直接比較におけるコミュニティの評価に基づいてAI画像モデルをランク付けするLMArena Vision Leaderboardで、前身のQwen2.5-VLを上回り、中国のトップ候補となりました。Hunyuan-Large-Visionは、幅広い視覚および言語タスクで卓越したパフォーマンスを発揮します。西洋モデルとの比較は注目に値しますが、これらの比較で使用される西洋のベンチマークが常に最新のリリースを反映しているわけではない点に留意する価値があります。
テンセントは、多岐にわたるアプリケーションを通じてモデルの汎用性を紹介しました。例えば、Iris lacteaのような特定の植物種を正確に識別したり、セーヌ川の写真にインスパイアされた詩を作曲したりすることができます。創造的な取り組みを超えて、囲碁のような複雑なゲームで戦略的なアドバイスを提供し、一般的でない言語を含む様々な言語への質問翻訳にも熟練しており、テンセントの以前のビジョンモデルと比較して大幅な改善が見られます。
Hunyuan-Large-Visionの核心には、3つの主要なモジュールが統合されています。視覚情報の処理に特化した10億パラメータのカスタムビジョントランスフォーマー、視覚と言語理解をシームレスに橋渡しするように設計されたコネクタモジュール、そして混合専門家技術を活用した言語モデルです。ビジョントランスフォーマーは、画像とテキスト間の接続を確立するために初期トレーニングを受け、その後、1兆以上のマルチモーダルテキストサンプルを使用して広範な洗練が行われました。この厳格なトレーニングにより、複雑なマルチモーダルタスクで他の人気モデルを上回る性能を発揮できるようになりました。
テンセントはまた、マルチモーダルデータのための新しいトレーニングパイプラインを実装しました。このシステムは、事前学習済みAIと専門ツールを活用して、大量のノイズの多い生データを高品質な指示データに変換します。その結果、視覚認識、数学、科学的推論、光学文字認識(OCR)にわたる4000億以上のマルチモーダルテキストサンプルからなる大規模なデータセットが作成されました。モデルのさらなる洗練には、リジェクションサンプリングと呼ばれる手法が用いられました。これは、特定のプロンプトに対して複数の応答を生成し、最適なものだけを保持するものです。自動ツールもエラーや冗長性をフィルタリングするために利用され、複雑な回答はより簡潔な形式に蒸留され、推論効率が向上しました。
トレーニングプロセス自体は、テンセントのAngel-PTMフレームワークと多段階ロードバランシング戦略の恩恵を受けました。これらの革新により、GPUのボトルネックが18.8パーセント削減され、全体のトレーニング時間が短縮されました。
現在、Hunyuan-Large-VisionはテンセントクラウドのAPIを通じてのみ利用可能です。テンセントの以前のAIモデルの一部とは異なり、このバージョンはオープンソースではありません。その膨大な3890億パラメータを考慮すると、一般的な消費者向けハードウェアでモデルを実行することは非現実的であり、大規模なクラウドベースのアプリケーション向けに設計されていることが強調されます。