Nvidia、Nemotron-Nano-9B-v2を発表:推論切り替え機能付き小型オープンAIモデル

Venturebeat

Nvidiaは、推論能力の向上と展開効率の最適化を目指して設計されたコンパクトながら強力なAIモデルであるNemotron-Nano-9B-v2のリリースにより、急成長する小型言語モデル(SLM)の分野に参入しました。この動きは、MITのスピンオフ企業Liquid AIやGoogleが最近導入したモデルのように、より少ない電力のハードウェアで動作可能な、ますます小型化され専門化されたAIモデルのトレンドに続くものです。

Nemotron-Nano-9B-v2は90億のパラメータを誇り、当初の120億パラメータ設計から大幅に削減されました。この最適化は、エンタープライズアプリケーションで人気のある選択肢である単一のNvidia A10 GPUへの展開を特にターゲットとしています。NvidiaのAIモデル後処理担当ディレクターであるOleksii Kuchiaevによると、この枝刈りにより、より大きなバッチサイズが可能になり、同サイズのTransformerモデルと比較して最大6倍高速に情報を処理できます。参考までに、多くの主要な大規模言語モデル(LLM)は700億以上のパラメータ範囲で動作しており、パラメータとはモデルの動作を制御する内部設定を指し、一般的に数が多いほど能力が高い反面、計算要件も高くなります。Nemotron-Nano-9B-v2のようなより小型で効率的なモデルへの推進は、電力消費、トークンコストの増加、推論遅延といった、エンタープライズAIの状況を再構築している増大する懸念に対処するものです。

Nemotron-Nano-9B-v2を支える重要なアーキテクチャ革新は、TransformerとMambaの両アーキテクチャの要素を組み合わせたハイブリッド性です。広く採用されているTransformerモデルは、シーケンス長が長くなるにつれてメモリと計算が集中する可能性のあるアテンション層のみに依存していますが、Nemotron-Hモデル(Nano-9B-v2が属するファミリー)は、Mambaアーキテクチャから選択的状態空間モデル(SSM)を統合しています。カーネギーメロン大学とプリンストン大学の研究者によって開発されたSSMは、内部状態を維持することで、非常に長い情報シーケンスの処理に優れています。これらの層はシーケンス長に線形にスケーリングし、従来の自己アテンションメカニズムに関連する大幅なメモリと計算のオーバーヘッドなしに、より長いコンテキストを効率的に処理します。このハイブリッドアプローチは、運用コストを大幅に削減し、同等の精度で長いコンテキストにおいて最大2〜3倍のスループットを達成しており、これは他のAIラボでも採用されている戦略です。

Nemotron-Nano-9B-v2の際立った特徴の1つは、ユーザーが制御可能なAI「推論」機能です。このモデルは、テキストのみの統合チャットおよび推論システムとして位置づけられており、最終的な回答を生成する前に、デフォルトで内部推論トレースを生成します。ユーザーは、/think/no_thinkのようなシンプルな制御トークンを使用して、この動作をオンまたはオフに切り替えることができます。さらに、開発者は実行時に「思考予算」を管理し、モデルが応答を完了する前に内部推論に費やすトークンの数を制限できます。このメカニズムは、特に顧客サポートシステムや自律エージェントのような時間制約のあるアプリケーションにおいて、精度とレイテンシのバランスを取る上で非常に重要です。

ベンチマーク評価は、Nemotron-Nano-9B-v2が他のオープンな小規模モデルと比較して競争力のある精度を持っていることを示しています。NeMo-Skillsスイートを使用して「推論オン」モードでテストしたところ、AIME25で72.1%、MATH500で97.8%、GPQAで64.0%、LiveCodeBenchで71.1%という印象的なスコアを達成しました。指示追従および長コンテキストベンチマークでも強力なパフォーマンスを示し、IFEvalで90.3%、RULER 128Kテストで78.9%を記録しています。全体として、Nano-9B-v2は、同クラスの一般的な比較対象であるQwen3-8Bよりも高い精度を示しています。Nvidiaはこれらの結果を精度対予算カーブで図示し、推論のためのトークン割り当ての増加に伴ってパフォーマンスがどのようにスケーリングするかを示しており、慎重な予算管理が実際のアプリケーションにおける品質とレイテンシの両方を最適化できることを示唆しています。

このモデルとその基盤となるNemotron-Hファミリーは、一般テキスト、コード、数学、科学、法律、金融文書、およびアラインメントスタイルの質疑応答データセットを含む、厳選されたウェブソースおよび合成データセットの多様な組み合わせで訓練されました。特筆すべきは、Nvidiaが、複雑なベンチマークでのパフォーマンスを強化するために、他の大規模モデルによって生成された合成推論トレースを使用したことを確認したことです。このモデルは、英語、ドイツ語、スペイン語、フランス語、イタリア語、日本語をサポートする幅広い言語対応も設計されており、韓国語、ポルトガル語、ロシア語、中国語の拡張記述も提供されているため、指示追従とコード生成の両方に適しています。

Nemotron-Nano-9B-v2は、Hugging FaceおよびNvidiaのモデルカタログを通じて、Nvidiaオープンモデルライセンス契約の下で直ちに利用可能です。この寛容で企業に優しいライセンスは、モデルがそのまま商業的に利用可能であることを明示しており、開発者は派生モデルを自由に作成・配布できます。重要な点として、Nvidiaはモデルによって生成されたいかなる出力の所有権も主張せず、その責任と権利はモデルを使用する開発者または組織に帰属します。これにより、企業は、一部の階層型オープンライセンスとは異なり、個別の商用ライセンス交渉や使用量閾値または収益レベルに関連する料金を発生させることなく、モデルを本番環境に統合できます。

高度に寛容である一方で、このライセンスは、責任ある展開に焦点を当てたいくつかの重要な条件を規定しています。ユーザーは、同等の代替手段を実装することなく、組み込みの安全メカニズムを迂回してはならず、モデルまたはその派生モデルの再配布には、Nvidiaオープンモデルライセンスのテキストと帰属を含める必要があります。貿易規制および制限への準拠、ならびに倫理的考慮事項に関するNvidiaの「信頼できるAI」ガイドラインへの遵守も必須です。さらに、ユーザーがモデルによる侵害を主張して他のエンティティに対して著作権または特許訴訟を開始した場合、訴訟条項によりライセンスは自動的に終了します。これらの条件は、商業的制限を課すのではなく、合法的かつ倫理的な使用を確保することを目的としており、企業が安全、帰属、およびコンプライアンスの義務を尊重する限り、ロイヤリティ負担なしに製品をスケールアップすることを可能にします。

Nemotron-Nano-9B-v2により、Nvidiaは、小規模な環境で推論能力と展開効率の微妙なバランスを必要とする開発者をターゲットにしています。ハイブリッドアーキテクチャと高度な圧縮およびトレーニング技術を組み合わせることで、同社は精度を維持しつつコストとレイテンシを大幅に削減することを目指すツールを提供しており、これは効率的で制御可能なAIモデルへの継続的な注力を強調しています。