Nvidia、AIエージェント向け小型・高効率LLMへの移行を提唱

Nvidiaの研究者たちは、人工知能業界に対し、AIエージェントシステムにおける大規模言語モデル（LLM）への依存を批判的に再評価するよう強く求めています。彼らは、現在の軌道が経済的にも環境的にも持続不可能であると主張しています。その代わりに、彼らは「小型言語モデル」（SLM）と呼ぶ、より小型で効率的な言語モデルへの戦略的な移行を提案しています。

現在の手法を支える財政的な格差は明らかです。2024年、多くのエージェントシステムを動かすLLM APIの市場価値は56億ドルと評価されました。しかし、これらのシステムをサポートするために必要なクラウドインフラ支出は、その数字をはるかに上回り、推定570億ドルに達しました。これは10倍の差です。この運用モデルは業界に深く根ざしており、研究者たちが最近の論文で強調したように、多額の設備投資の基盤となっています。

Nvidiaのチームは、100億未満のパラメータを持つモデルと定義されるSLMが、ほとんどのAIエージェントのワークロードにとって「原則として十分に強力で」、「本質的に運用上より適しており」、そして「必然的に経済的である」と主張しています。彼らは説得力のある例を挙げています。MicrosoftのPhi-2は、その控えめなサイズにもかかわらず、推論とコード生成において300億パラメータのLLMに匹敵すると評判で、15倍高速に動作します。同様に、Nvidia自身のNemotron-Hモデルは、最大90億パラメータを持ち、大幅に少ない計算能力で300億パラメータのLLMに匹敵する精度を達成すると報告されています。Deepseek-R1-Distill-Qwen-7BやDeepMindのRETROのような他のモデルも、より小型のシステムが重要なタスクにおいて、はるかに大規模なプロプライエタリモデルの性能に匹敵するか、あるいはそれを上回ることができるという証拠として提示されています。

SLMの経済的利点は特に魅力的です。70億パラメータのモデルを運用するコストは、700億から1750億パラメータのLLMを運用するコストの10分の1から30分の1に抑えられます。この計算には、レイテンシ、エネルギー消費、および生の計算要件が考慮されています。さらに、特定のアプリケーション向けにSLMをファインチューニングすることは、わずか数GPU時間で達成でき、大型モデルにしばしば必要とされる数週間とは対照的であり、適応を劇的に加速します。多くのSLMは、コンシューマー向けハードウェアでローカルに実行する機能も備えており、これによりレイテンシが削減されるだけでなく、ユーザーはデータプライバシーをより細かく制御できるようになります。研究者たちはまた、SLMがパラメータをより効率的に使用する傾向があるのに対し、大型モデルは任意の入力に対して、その膨大なパラメータ数のごく一部しか活性化しないことが多く、これが本質的な非効率性につながると指摘しています。彼らは、AIエージェントは本質的に「言語モデルへの厳密に指示され、外部から振り付けられたゲートウェイ」であり、LLMが提供する機能の全範囲を必要とすることはめったにないと主張しています。ほとんどのエージェントタスクが反復的で、範囲が狭く、会話型ではないことを考えると、これらの特定の形式に特化してファインチューニングされたSLMの方がはるかに適しています。推奨事項は明確です。SLMをデフォルトとする異種エージェントシステムを構築し、真に複雑な推論が必要な状況でのみ大型モデルを予約することです。

これらの明確な利点にもかかわらず、SLMへの移行は大きなハードルに直面しています。Nvidiaのチームは、業界の集中型LLMインフラへの多額の投資、広範なベンチマークスコアへの広範な焦点、そして小型モデルの高度な能力に関する一般の認識不足を主な障壁として挙げています。この移行を促進するために、彼らはデータ収集とキュレーション、タスククラスタリング、適切なSLMの選択、特定のニーズへのファインチューニング、継続的な改善を含む6段階の計画を提案しています。彼らのケーススタディは、この移行に大きな可能性を示唆しており、MetaGPT、Open Operator、Cradleなどの人気のあるオープンソースエージェントにおけるLLMクエリの40%から70%がSLMによっても同様に効果的に処理できることを発見しました。

多くの人にとって、SLMへの移行は単なる技術的な洗練だけでなく、研究者たちが言うところの「ヒューム的な道徳的義務」でもあります。運用コストの上昇と大規模AIインフラの環境への影響増大を考慮すると、この倫理的側面はますます重要になります。これは最近、Mistralがその最大モデルのエネルギー消費に関する詳細なデータによって強調された懸念です。LLMブームの主要な受益者であるNvidiaが、より小型のモデルを擁護するのは逆説的に見えるかもしれません。しかし、よりアクセスしやすく効率的なAIを提唱することで、NvidiaはAI市場全体を大幅に拡大し、テクノロジーを企業や消費者向けデバイスにさらに深く組み込むことができます。同社はコミュニティからのフィードバックを積極的に求めており、選ばれた回答をオンラインで公開する予定であり、この重要な業界対話を促進する真摯な意欲を示しています。

Nvidia、AIエージェント向け小型・高効率LLMへの移行を提唱

関連記事

流出ログ：ChatGPTがユーザーを精神病と妄想に誘い込む実態

量子コンピュータ：誇大広告の先、真の優位性を定義

コンテンツ監視：人間はAIより優秀だが、コストは40倍