NVIDIA Nemotron : L'équilibre parfait entre performance, coût et précision IA
Dans le paysage en évolution rapide de l’intelligence artificielle, de nouveaux grands modèles linguistiques (LLM) et benchmarks émergent chaque semaine, laissant souvent les praticiens aux prises avec une question fondamentale : comment ces avancées se traduisent-elles en valeur pratique et réelle ? Évaluer la véritable qualité et l’utilité d’un nouveau modèle, en particulier la manière dont ses capacités mesurées, comme le raisonnement, se comportent réellement dans des scénarios commerciaux, est un défi important. Pour y remédier, nous avons récemment entrepris une évaluation complète du modèle NVIDIA Llama Nemotron Super 49B 1.5, récemment publié. Notre analyse a tiré parti de syftr, un cadre d’exploration et d’évaluation de flux de travail d’IA générative, en ancrant nos conclusions dans un problème commercial tangible et en explorant les compromis critiques inhérents à l’analyse multi-objectifs. Après avoir examiné plus d’un millier de flux de travail distincts, nous pouvons désormais offrir des conseils concrets sur les cas d’utilisation spécifiques où ce modèle excelle.
Il est largement admis que le nombre de paramètres dans un LLM influence considérablement son coût opérationnel. Les modèles plus grands exigent plus de mémoire pour charger leurs poids et mettre en cache les matrices clé-valeur, ce qui a un impact direct sur les ressources de calcul requises. Historiquement, les modèles plus grands ont généralement offert des performances supérieures, les modèles d’IA de pointe étant presque invariablement massifs. Les avancées fondamentales de la technologie GPU ont été cruciales pour permettre le développement et le déploiement de ces modèles de plus en plus grands. Cependant, la seule échelle ne garantit plus une performance de pointe. Les nouvelles générations de modèles démontrent de plus en plus leur capacité à surpasser leurs prédécesseurs plus grands, même avec un nombre de paramètres similaire. Les modèles Nemotron de NVIDIA exemplifient cette tendance. Ces modèles s’appuient sur des architectures ouvertes existantes, mais, de manière critique, ils intègrent des techniques telles que l’élagage des paramètres inutiles et la distillation de nouvelles capacités. Cette innovation signifie qu’un modèle Nemotron plus petit peut fréquemment surpasser ses prédécesseurs plus grands sur plusieurs dimensions : atteindre des vitesses d’inférence plus rapides, consommer moins de mémoire et présenter des capacités de raisonnement plus solides. Notre objectif était de quantifier ces compromis cruciaux, en particulier lors de la comparaison de Nemotron avec certains des plus grands modèles actuellement disponibles. Nous les avons chargés sur notre cluster et avons commencé notre évaluation rigoureuse.
Pour évaluer à la fois la précision et le coût, nous avons d’abord identifié un défi convaincant du monde réel : simuler un jeune analyste financier chargé de comprendre une nouvelle entreprise. Ce scénario exige non seulement la capacité de répondre à des questions directes, telles que “Boeing a-t-il un profil de marge brute en amélioration à partir de l’exercice 2022 ?”, mais aussi de fournir des explications perspicaces, comme “Si la marge brute n’est pas une métrique utile, expliquez pourquoi.” Pour répondre correctement aux deux types de questions, les modèles devaient extraire des données de divers documents financiers (y compris les rapports annuels et trimestriels), comparer et interpréter les chiffres sur différentes périodes et synthétiser une explication contextuellement fondée. À cette fin, nous avons utilisé FinanceBench, un benchmark spécifiquement conçu pour de telles tâches, associant des documents financiers réels à des questions et réponses validées par des experts, servant ainsi de proxy robuste pour les flux de travail d’entreprise authentiques.
Au-delà des simples invites, notre évaluation a nécessité la construction et la compréhension de flux de travail complets d’agents IA. En effet, une évaluation efficace du modèle nécessite de fournir le bon contexte au modèle à chaque étape, un processus qui doit généralement être répété pour chaque nouvelle combinaison modèle-flux de travail. Notre cadre syftr s’est avéré inestimable ici, nous permettant d’exécuter des centaines de flux de travail sur divers modèles, révélant rapidement les compromis inhérents entre précision et coût. Les résultats se sont souvent regroupés en ce que l’on appelle des flux Pareto-optimaux – des flux de travail qui atteignent la meilleure précision possible pour un coût donné, ou le coût le plus bas pour une précision donnée. D’un côté du spectre, les pipelines simples utilisant d’autres modèles comme LLM de synthèse étaient peu coûteux mais offraient une faible précision. Inversement, les flux les plus précis s’appuyaient généralement sur des stratégies “agentielles” plus complexes, décomposant les questions, effectuant plusieurs appels LLM et analysant chaque élément indépendamment, ce qui, bien qu’efficace pour le raisonnement, augmentait considérablement les coûts d’inférence. Dans ce paysage complexe, Nemotron a constamment réalisé de solides performances, se maintenant à la frontière de Pareto.
Une plongée plus approfondie dans la performance du modèle a impliqué le regroupement des flux de travail par le LLM spécifique utilisé à chaque étape et le traçage de leurs frontières de Pareto respectives. L’écart de performance était souvent frappant. La plupart des modèles ont eu du mal à approcher les capacités de Nemotron, certains ne parvenant pas à générer des réponses raisonnables sans une ingénierie de contexte étendue, restant moins précis et plus chers même alors. Cependant, le récit a changé lorsque nous avons incorporé les Embeddings de Documents Hypothétiques (HyDE), une technique où un LLM génère une réponse hypothétique à une requête, qui est ensuite intégrée et utilisée pour récupérer des documents pertinents. Dans les flux où d’autres modèles excellaient à l’étape HyDE, plusieurs modèles ont obtenu des résultats remarquables, fournissant des résultats de haute précision à un coût abordable. Cela a révélé des informations clés : Nemotron brille vraiment dans la phase de synthèse, produisant des réponses très précises sans encourir de coûts supplémentaires. En tirant parti d’autres modèles spécialisés dans HyDE, Nemotron est libéré pour se concentrer sur le raisonnement de grande valeur. Cette approche de “flux hybride”, utilisant chaque modèle pour la tâche qu’il effectue le mieux, apparaît comme la configuration la plus efficace.
En fin de compte, l’évaluation de nouveaux modèles ne consiste pas seulement à atteindre la plus haute précision. Le véritable succès réside dans la découverte de l’équilibre optimal entre qualité, rentabilité et adéquation aux flux de travail spécifiques. La mesure de facteurs tels que la latence, l’efficacité et l’impact global est cruciale pour garantir que le système d’IA déployé offre une valeur tangible. Les modèles NVIDIA Nemotron sont conçus dans cette perspective holistique, conçus non seulement pour la puissance brute, mais pour des performances pratiques qui permettent aux équipes d’avoir un impact significatif sans encourir de coûts exorbitants. Lorsqu’ils sont associés à un processus d’évaluation structuré et guidé par syftr, les organisations obtiennent une méthode reproductible et robuste pour naviguer dans le renouvellement rapide des nouveaux modèles d’IA, tout en maintenant un contrôle strict sur les ressources informatiques et les budgets.