NVIDIA Nemotron:AI性能、コスト、精度を最適化する新基準

Datarobot

急速に進化する人工知能の分野では、毎週のように新しい大規模言語モデル(LLM)とベンチマークが登場し、実践者は「これらの進歩がどのように実用的で現実世界での価値に変換されるのか?」という根本的な疑問に直面することがよくあります。新しいモデルの真の品質と有用性を評価すること、特に推論のようなベンチマーク能力がビジネスシナリオで実際にどのように機能するかを評価することは、大きな課題です。これに対処するため、私たちは最近リリースされたNVIDIA Llama Nemotron Super 49B 1.5モデルの包括的な評価を実施しました。私たちの分析では、生成AIワークフローの探索および評価フレームワークであるsyftrを活用し、具体的なビジネス問題に焦点を当て、多目的分析に内在する重要なトレードオフを探求しました。1000以上の異なるワークフローを検証した結果、このモデルが特に優れている特定のユースケースについて、具体的なガイダンスを提供できるようになりました。

LLMのパラメータ数がその運用コストに大きく影響することは広く理解されています。大規模なモデルは、その重みをロードし、キーバリュー行列をキャッシュするために、より多くのメモリを必要とし、必要な計算リソースに直接影響します。歴史的に、大規模なモデルは一般的に優れた性能を提供し、最先端のAIモデルはほぼ例外なく巨大でした。GPU技術の基本的な進歩は、これらのますます大規模なモデルの開発と展開を可能にする上で極めて重要でした。しかし、規模だけが最高の性能を保証するものではなくなりました。新世代のモデルは、同程度のパラメータ数であっても、より大きな先行モデルを上回る能力をますます示しています。NVIDIAのNemotronモデルはこの傾向を象徴しています。これらのモデルは既存のオープンアーキテクチャに基づいていますが、不要なパラメータのプルーニングや新しい機能の蒸留といった技術を組み込んでいる点が重要です。この革新により、より小さなNemotronモデルは、より高速な推論速度、より少ないメモリ消費、より強力な推論能力など、複数の側面でそのより大きな前任者を頻繁に凌駕することができます。私たちの目標は、特にNemotronを現在利用可能な最大級のモデルと比較する際に、これらの重要なトレードオフを定量化することでした。私たちはそれらをクラスターにロードし、厳格な評価を開始しました。

精度とコストの両方を評価するために、まず魅力的な現実世界の課題を特定しました。それは、新会社を理解する任務を負った若手金融アナリストをシミュレートすることです。このシナリオでは、「ボーイングは2022会計年度時点で粗利益率が改善していますか?」のような直接的な質問に答える能力だけでなく、「粗利益率が有用な指標でない場合、その理由を説明してください」のような洞察に満ちた説明を提供することも求められます。両方の種類の質問に正しく答えるには、モデルは様々な財務文書(年次報告書や四半期報告書を含む)からデータを抽出し、異なる期間の数値を比較解釈し、文脈に基づいた説明を統合する必要がありました。この目的のために、私たちはFinanceBenchを使用しました。これは、そのようなタスクのために特別に設計されたベンチマークであり、実際の財務書類を専門家が検証した質問と回答と組み合わせることで、真の企業ワークフローの堅牢な代理として機能します。

単純なプロンプトを超えて、私たちの評価では、完全なAIエージェントワークフローを構築し、理解する必要がありました。これは、効果的なモデル評価には、各ステップでモデルに正しいコンテキストを供給する必要があり、このプロセスは通常、新しいモデルとワークフローの組み合わせごとに繰り返す必要があるためです。私たちのsyftrフレームワークはここで非常に貴重であることが証明され、多様なモデルにわたって数百のワークフローを実行することを可能にし、精度とコストの間に内在するトレードオフを迅速に明らかにしました。結果はしばしば、パレート最適フローとして知られるものにクラスター化されました。これは、特定のコストで可能な限り最高の精度を達成するワークフロー、または特定の精度で最低のコストを達成するワークフローです。一方では、他のモデルを合成LLMとして使用する単純なパイプラインは安価でしたが、精度は低かったです。逆に、最も正確なフローは通常、質問を分解し、複数のLLM呼び出しを行い、各部分を独立して分析する、より複雑な「エージェント的な」戦略に依存していました。これは推論には効果的でしたが、推論コストを大幅に増加させました。この複雑な状況の中で、Nemotronは常に強力な性能を発揮し、パレートフロンティアでその地位を維持しました。

モデルのパフォーマンスをさらに深く掘り下げるには、各ステップで使用された特定のLLMによってワークフローをグループ化し、それぞれのパレートフロンティアをプロットすることが含まれました。パフォーマンスの差はしばしば顕著でした。ほとんどのモデルはNemotronの能力に近づくのに苦労し、中には広範なコンテキストエンジニアリングなしでは合理的な回答を生成できず、それでも精度が低く、コストが高くなるものもありました。しかし、仮説的文書埋め込み(HyDE)を組み込んだときに、その状況は変わりました。HyDEは、LLMがクエリに対する仮説的な回答を生成し、それを埋め込んで関連文書を検索するために使用する技術です。他のモデルがHyDEステップで優れていたフローでは、いくつかのモデルが驚くほど良好なパフォーマンスを示し、手頃な価格で高精度の結果を提供しました。これは重要な洞察を明らかにしました。Nemotronは合成フェーズで真に輝き、追加コストを発生させることなく高精度の回答を生成します。HyDEに特化した他のモデルを活用することで、Nemotronは高価値の推論に集中することができます。各モデルが最も得意とするタスクに利用するこの「ハイブリッドフロー」アプローチが、最も効率的な設定として浮上します。

最終的に、新しいモデルの評価は、単に最高の精度を達成することだけではありません。真の成功は、品質、費用対効果、および特定のワークフローへの適合性の最適なバランスを見つけることにあります。展開されたAIシステムが具体的な価値を提供するために、レイテンシ、効率、全体的な影響などの要素を測定することが重要です。NVIDIA Nemotronモデルは、この全体的な視点を念頭に置いて設計されており、生々しいパワーだけでなく、チームが法外なコストをかけることなく大きな影響を達成できる実用的なパフォーマンスのために設計されています。構造化されたsyftrガイドによる評価プロセスと組み合わせることで、組織は、新しいAIモデルの急速な変化に対応するための反復可能で堅牢な方法を獲得し、同時にコンピューティングリソースと予算を厳密に管理できます。