IA Open Source : Un Coût de Calcul Plus Élevé Qu'Attendu ?

Venturebeat

Une nouvelle étude exhaustive a révélé un défi significatif à la croyance prédominante selon laquelle les modèles d’intelligence artificielle open-source offrent des avantages économiques clairs par rapport à leurs homologues propriétaires. Des recherches menées par la firme d’IA Nous Research indiquent que les modèles open-source consomment substantiellement plus de ressources informatiques pour effectuer des tâches identiques, ce qui pourrait éroder leurs avantages de coût perçus et nécessiter une réévaluation des stratégies de déploiement d’IA en entreprise.

L’étude, qui a analysé 19 modèles d’IA différents à travers un spectre de tâches incluant des questions de connaissances de base, des problèmes mathématiques et des énigmes logiques, a révélé que les modèles à poids ouverts utilisent entre 1,5 et 4 fois plus de jetons — les unités fondamentales du calcul de l’IA — que les modèles fermés de développeurs comme OpenAI et Anthropic. Cette disparité était particulièrement marquée pour les requêtes de connaissances simples, où certains modèles ouverts consommaient jusqu’à 10 fois plus de jetons. Les chercheurs ont noté dans leur rapport que, bien que les modèles open-source affichent généralement des coûts d’exécution par jeton inférieurs, cet avantage peut être “facilement compensé s’ils nécessitent plus de jetons pour raisonner sur un problème donné”, les rendant potentiellement plus chers par requête.

Une métrique clé examinée était “l’efficacité des jetons”, qui mesure le nombre d’unités de calcul utilisées par les modèles par rapport à la complexité de leurs solutions. Cette métrique, malgré ses profondes implications en termes de coûts, a reçu peu d’études systématiques jusqu’à présent. L’inefficacité est particulièrement prononcée dans les grands modèles de raisonnement (LRM), qui emploient des “chaînes de pensée” étendues — des processus de raisonnement étape par étape — pour aborder des problèmes complexes. Ces modèles peuvent, étonnamment, dépenser des centaines, voire des milliers de jetons à réfléchir sur des questions simples qui devraient nécessiter un calcul minimal, telles que “Quelle est la capitale de l’Australie ?”.

La recherche a révélé des différences frappantes en matière d’efficacité entre les fournisseurs de modèles. Les modèles d’OpenAI, y compris ses variantes o4-mini et gpt-oss open-source récemment publiées, ont démontré une efficacité de jetons exceptionnelle, particulièrement pour les problèmes mathématiques, utilisant jusqu’à trois fois moins de jetons que d’autres modèles commerciaux. Parmi les options open-source, llama-3.3-nemotron-super-49b-v1 de Nvidia est apparu comme le modèle le plus efficace en termes de jetons dans tous les domaines, tandis que les modèles plus récents de sociétés comme Magistral ont montré une utilisation exceptionnellement élevée de jetons, se distinguant comme des valeurs aberrantes. Alors que les modèles ouverts utilisaient environ deux fois plus de jetons pour les problèmes mathématiques et logiques, l’écart s’est considérablement creusé pour les questions de connaissances simples où un raisonnement étendu devrait être inutile.

Ces découvertes ont des implications immédiates et significatives pour l’adoption de l’IA en entreprise, où les coûts de calcul peuvent augmenter rapidement avec l’utilisation. Les entreprises évaluant les modèles d’IA priorisent souvent les benchmarks de précision et la tarification par jeton, négligeant fréquemment les exigences de calcul totales pour les tâches du monde réel. L’étude a conclu que “la meilleure efficacité des jetons des modèles à poids fermés compense souvent le prix d’API plus élevé de ces modèles” lors de l’analyse des coûts d’inférence totaux. Cela suggère que les fournisseurs de modèles propriétaires ont activement optimisé leurs offres pour l’efficacité, réduisant itérativement l’utilisation des jetons pour diminuer les coûts d’inférence. Inversement, certains modèles open-source ont montré une utilisation accrue des jetons dans les versions plus récentes, reflétant peut-être une priorisation d’une meilleure performance de raisonnement au détriment de la frugalité computationnelle.

Mesurer l’efficacité à travers diverses architectures de modèles a présenté des défis uniques, d’autant plus que de nombreux modèles à code fermé ne divulguent pas leurs processus de raisonnement bruts. Pour contourner cela, les chercheurs ont utilisé les jetons de complétion — les unités de calcul totales facturées pour chaque requête — comme indicateur de l’effort de raisonnement. Ils ont découvert que la plupart des modèles à code fermé récents fournissent des résumés compressés de leurs calculs internes, utilisant souvent des modèles de langage plus petits pour transcrire des chaînes de pensée complexes, protégeant ainsi leurs techniques propriétaires. La méthodologie de l’étude comprenait également des tests avec des versions modifiées de problèmes connus, tels que la modification de variables dans des problèmes de compétition mathématique, afin de minimiser l’influence des solutions mémorisées.

Pour l’avenir, les chercheurs préconisent que l’efficacité des jetons devienne un objectif d’optimisation principal aux côtés de la précision dans le développement futur des modèles. Ils suggèrent qu’une “CoT plus densifiée” permettra une utilisation plus efficace du contexte et pourrait contrer la dégradation du contexte lors de tâches de raisonnement difficiles. L’avènement des modèles gpt-oss open-source d’OpenAI, qui combinent une efficacité de pointe avec des chaînes de pensée librement accessibles, pourrait servir de point de référence crucial pour l’optimisation d’autres modèles open-source. Alors que l’industrie de l’IA se lance dans une course vers des capacités de raisonnement plus puissantes, cette étude souligne que la véritable compétition pourrait ne pas être simplement de savoir qui construit l’IA la plus intelligente, mais qui peut construire la plus efficace. Après tout, dans un écosystème où chaque jeton compte, les modèles les plus gaspilleurs, quelle que soit leur prouesse intellectuelle, pourraient finalement se retrouver exclus du marché en raison de leur coût.