NVIDIA Nemotron Nano 2: 6倍高速化、128KコンテキストLLMをリリース

Marktechpost

NVIDIAは、最先端の推論精度と驚異的な速度の両方を提供するように設計された、新しい大規模言語モデル(LLM)スイートであるNemotron Nano 2ファミリーを発表しました。これらのモデルは、新しいハイブリッドMamba-Transformerアーキテクチャに基づいて構築されており、同サイズの対応モデルと比較して最大6倍高速な推論スループットを約束します。このリリースを特徴づけるのは、NVIDIAが前例のない透明性へのコミットメントを示し、トレーニングコーパス、レシピ、モデルチェックポイントのほとんどを広範なAIコミュニティに公開している点です。重要なことに、これらのモデルは、NVIDIA A10Gなどの単一の中間レンジGPUで128,000トークンという巨大なコンテキスト長を処理するように設計されており、高度な長コンテキスト推論と実世界での展開に対する障壁を大幅に低減します。

Nemotron Nano 2モデルは、印象的なパフォーマンス指標を誇ります。推論集約型のシナリオでは、Qwen3-8Bのようなモデルよりも最大6.3倍速くトークンを生成でき、しかも精度を損なうことはありません。純粋な速度だけでなく、ベンチマークは、複雑な推論、コーディング、多言語アプリケーションを含む幅広いタスクでその優れた精度を明らかにしています。これらは、競合するオープンモデルのパフォーマンスと常に同等かそれ以上であり、特に数学的な問題解決、コード生成、ツール利用、および広範なコンテキスト理解を必要とするタスクで優れています。単一GPUで128Kのコンテキスト長を管理する能力は、これまで中間レンジのハードウェアでは非実用的であった偉業であり、その効率的なプルーニングとハイブリッドアーキテクチャ設計の証です。

Nemotron Nano 2の核心には、より大きなNemotron-Hアーキテクチャからインスピレーションを得た革新的なハイブリッドMamba-Transformerバックボーンがあります。この設計は、従来の自己注意層を非常に効率的なMamba-2層に大幅に置き換え、全層の約8パーセントのみが自己注意を保持しています。この慎重なアーキテクチャ設計は、90億パラメータモデルに56層、隠れサイズ4480、グループ化クエリ注意を特徴とし、Mamba-2状態空間層がスケーラビリティと堅牢な長シーケンス保持の両方を促進することを可能にします。Mamba-2層は、その高スループットシーケンス処理で知られており、疎な自己注意と戦略的に交互に配置され、長距離依存関係を維持し、大規模なフィードフォワードネットワークと並行して動作します。この構造は、「思考の痕跡」—広範なインコンテキスト入力に基づいて生成される長い出力—を必要とする推論タスクに特に有利であり、従来のトランスフォーマーアーキテクチャではパフォーマンスのボトルネックやメモリ制約に直面することがよくあります。

NVIDIAのNemotron Nano 2モデルのトレーニング方法論は、そのアーキテクチャと同様に注目に値します。これらのモデルは、20兆トークンに及ぶ広範で綿密にキュレーションされた高品質のコーパスを使用して、より大きな120億パラメータの教師モデルからトレーニングおよび蒸留されています。この事前トレーニングデータは、ウェブコンテンツ、数学、コード、多言語テキスト、学術論文、STEM科目など、多様なドメインにわたります。NVIDIAのデータ透明性へのコミットメントは、Hugging Faceで主要なデータセットを許容ライセンスの下でリリースすることによってさらに実証されています。これらには、合成Q&Aの言い換えを含む多言語ウェブクロールであるNemotron-CC-v2、標準化されたLaTeX数学コンテンツの1330億トークンからなるNemotron-CC-Math、品質フィルタリングされたGitHubソースコードコレクションであるNemotron-Pretraining-Code、およびさまざまなドメインにわたる合成指示追従データセットであるNemotron-Pretraining-SFTが含まれます。さらに、教師ありファインチューニング(SFT)、人間からのフィードバックによる強化学習(RLHF)、ツール呼び出し、多言語データセットを含む800億トークン以上のポストトレーニングデータが、直接再現性のためにオープンソース化されています。

Nemotron Nano 2の効率性と費用対効果は、NVIDIAの洗練されたモデル圧縮プロセスによるものであり、これは「Minitron」およびMambaプルーニングフレームワークに基づいています。120億パラメータの教師モデルからの知識蒸留により、層、フィードフォワードネットワークの次元、埋め込み幅の慎重なプルーニングを通じて、90億パラメータに削減されます。これは、ツール呼び出しの最適化、指示追従、推論中の推論トークン予算を管理するための「思考予算」制御を含む、多段階SFTと強化学習技術によって補完されます。メモリをターゲットとしたニューラルアーキテクチャ探索を通じて、プルーニングされたモデルは、モデルとそのキーバリューキャッシュの両方がA10G GPUのメモリ制約内に収まり、128Kのコンテキスト長でも高性能を維持するように特別に設計されています。この包括的なアプローチにより、大規模な入力/出力トークンを伴うシナリオでは、オープンな競合他社よりも最大6倍高速な推論速度を実現し、タスク精度を損なうことはありません。

要約すると、NVIDIAのNemotron Nano 2のリリースは、オープンLLM研究における重要なマイルストーンとなります。単一の費用対効果の高いGPUで達成可能な能力を、速度とコンテキスト容量の両面で再定義し、同時にデータ透明性と再現性の新しい標準を設定します。その革新的なハイブリッドアーキテクチャ、優れたスループット、および高品質なオープンデータセットは、AIエコシステム全体のイノベーションを大幅に加速する態勢を整えています。