Nvidia pousse vers des LLM plus petits et efficaces pour les agents IA

Decoder

Les chercheurs de Nvidia exhortent l’industrie de l’intelligence artificielle à réévaluer de manière critique sa dépendance aux modèles de langage massifs (LLM) pour les systèmes d’agents IA, arguant que la trajectoire actuelle est économiquement et écologiquement insoutenable. Au lieu de cela, ils proposent un virage stratégique vers des modèles de langage plus petits et plus efficaces, qu’ils appellent “Small Language Models” (SLM).

La disparité financière qui sous-tend l’approche actuelle est frappante. En 2024, le marché des API LLM, qui alimentent de nombreux systèmes d’agents, était évalué à 5,6 milliards de dollars. Cependant, les dépenses d’infrastructure cloud nécessaires pour supporter ces mêmes systèmes ont éclipsé ce chiffre, atteignant une estimation de 57 milliards de dollars – une différence de dix fois. Ce modèle opérationnel, profondément ancré dans l’industrie, constitue le fondement d’investissements en capital substantiels, comme l’ont souligné les chercheurs dans leur récent article.

L’équipe de Nvidia soutient que les SLM, définis comme des modèles de moins de 10 milliards de paramètres, sont souvent “principalement suffisamment puissants”, “intrinsèquement plus adaptés opérationnellement” et “nécessairement plus économiques” pour la majorité des charges de travail des agents IA. Ils citent des exemples convaincants : le Phi-2 de Microsoft, malgré sa taille modeste, rivaliserait avec les LLM de 30 milliards de paramètres en matière de raisonnement et de génération de code tout en fonctionnant 15 fois plus vite. De même, les propres modèles Nemotron-H de Nvidia, avec jusqu’à 9 milliards de paramètres, atteindraient une précision comparable à celle des LLM de 30 milliards de paramètres en utilisant beaucoup moins de puissance de calcul. D’autres modèles comme Deepseek-R1-Distill-Qwen-7B et RETRO de DeepMind sont également présentés comme des preuves que des systèmes plus petits peuvent égaler, voire surpasser, les performances de modèles propriétaires beaucoup plus grands sur des tâches cruciales.

Les avantages économiques des SLM sont particulièrement convaincants. L’exploitation d’un modèle de 7 milliards de paramètres peut coûter 10 à 30 fois moins cher que l’exécution d’un LLM de 70 à 175 milliards de paramètres, un calcul qui prend en compte la latence, la consommation d’énergie et les exigences de calcul brutes. De plus, le réglage fin d’un SLM pour des applications spécifiques peut être accompli en quelques heures de GPU seulement, un contraste frappant avec les semaines souvent nécessaires pour les modèles plus grands, accélérant drastiquement l’adaptation. De nombreux SLM possèdent également la capacité de fonctionner localement sur du matériel grand public, ce qui non seulement réduit la latence, mais accorde également aux utilisateurs un plus grand contrôle sur la confidentialité de leurs données. Les chercheurs soulignent également que les SLM ont tendance à utiliser leurs paramètres plus efficacement, tandis que les modèles plus grands n’activent fréquemment qu’une petite fraction de leur vaste nombre de paramètres pour toute entrée donnée, ce qui entraîne une inefficacité inhérente. Ils soutiennent que les agents IA, qui sont essentiellement des “passerelles vers un modèle de langage fortement instruites et chorégraphiées de l’extérieur”, nécessitent rarement le spectre complet des capacités qu’un LLM fournit. Étant donné que la plupart des tâches d’agents sont répétitives, de portée étroite et non conversationnelles, les SLM spécialisés, affinés pour ces formats spécifiques, représentent une bien meilleure adéquation. La recommandation est claire : construire des systèmes d’agents hétérogènes qui utilisent par défaut les SLM, réservant les modèles plus grands uniquement pour les situations qui exigent véritablement un raisonnement complexe.

Malgré ces avantages évidents, le passage aux SLM est confronté à des obstacles importants. L’équipe de Nvidia identifie l’investissement massif de l’industrie dans l’infrastructure LLM centralisée, sa concentration omniprésente sur les scores de référence larges, et un manque général de sensibilisation du public concernant les capacités avancées des modèles plus petits comme principales barrières. Pour faciliter cette transition, ils proposent un plan en six étapes comprenant la collecte et la curation de données, le regroupement des tâches, la sélection appropriée des SLM, le réglage fin pour des besoins spécifiques et l’amélioration continue. Leurs études de cas suggèrent un potentiel substantiel pour ce changement, constatant qu’entre 40 et 70 % des requêtes LLM dans des agents open source populaires comme MetaGPT, Open Operator et Cradle pourraient être traitées tout aussi efficacement par les SLM.

Pour beaucoup, la transition vers les SLM représente non seulement un raffinement technique, mais aussi, comme le disent les chercheurs, un “devoir moral humien”. Cette dimension éthique devient de plus en plus pertinente à la lumière de l’augmentation des coûts opérationnels et de l’impact environnemental croissant des infrastructures d’IA à grande échelle, une préoccupation récemment soulignée par les données détaillées de Mistral sur la consommation d’énergie de ses plus grands modèles. Il pourrait sembler paradoxal pour Nvidia, un bénéficiaire majeur du boom des LLM, de défendre des modèles plus petits. Cependant, en plaidant pour une IA plus accessible et plus efficace, Nvidia pourrait considérablement étendre le marché global de l’IA, en intégrant la technologie plus profondément dans les entreprises et les appareils grand public. L’entreprise recherche activement les commentaires de la communauté et prévoit de publier des réponses sélectionnées en ligne, signalant un désir authentique de favoriser ce dialogue crucial de l’industrie.