Modèles d'IA Open Source: Coûts à Long Terme Plus Élevés dus à l'Inefficacité des Tokens

Gizmodo

Alors que les entreprises intègrent de plus en plus l’intelligence artificielle dans leurs opérations, une décision critique se pose : adopter des modèles d’IA open source ou propriétaires. Bien que les options open source semblent souvent plus économiques au premier abord, une étude récente de Nous Research suggère que ces économies initiales peuvent rapidement s’éroder en raison de leur demande plus élevée en puissance de calcul. Les résultats, publiés cette semaine, indiquent que les modèles d’IA open source consomment généralement beaucoup plus de ressources computationnelles que leurs rivaux propriétaires pour effectuer des tâches identiques.

Pour quantifier cette consommation de ressources, les chercheurs de Nous Research ont testé rigoureusement des dizaines de modèles d’IA, y compris des systèmes fermés de géants de l’industrie comme Google et OpenAI, ainsi que des alternatives open source de développeurs tels que DeepSeek et Magistral. Ils ont méticuleusement mesuré l’effort de calcul requis par chaque modèle pour accomplir une gamme de tâches, catégorisées en questions de connaissances simples, problèmes mathématiques et puzzles logiques. La métrique principale de cette mesure était le nombre de “tokens” que chaque modèle utilisait pour traiter et générer des réponses.

Dans le domaine de l’intelligence artificielle, un token représente la plus petite unité de texte ou de données qu’un modèle traite – il peut s’agir d’un mot, d’un fragment de mot, ou même de ponctuation. Les modèles d’IA comprennent et génèrent le langage en traitant ces tokens séquentiellement. Par conséquent, un nombre plus élevé de tokens pour une tâche donnée se traduit directement par une augmentation de la puissance de calcul et des temps de traitement plus longs. L’étude a souligné une disparité frappante : “Les modèles à poids ouvert utilisent 1,5 à 4 fois plus de tokens que les modèles fermés – et jusqu’à 10 fois pour les questions de connaissances simples – ce qui les rend parfois plus chers par requête malgré des coûts par token inférieurs”, ont noté les auteurs.

Cet écart d’efficacité a des implications significatives pour les entreprises qui déploient l’IA. Premièrement, bien que les coûts d’hébergement directs pour les modèles à poids ouvert puissent être inférieurs, cet avantage peut être rapidement annulé si les modèles exigent substantiellement plus de tokens pour analyser et résoudre un problème. Deuxièmement, un nombre élevé de tokens entraîne directement des temps de génération prolongés et une latence accrue, ce qui peut être préjudiciable pour les applications nécessitant des réponses rapides. Étant donné que la plupart des modèles propriétaires ne divulguent pas leurs processus de raisonnement internes ou leur “chaîne de pensée”, les chercheurs se sont basés sur le nombre total de tokens de sortie – qui incluent à la fois le traitement interne du modèle et sa réponse finale – comme un indicateur fiable de l’effort computationnel dépensé.

La recherche a démontré sans équivoque que les modèles open source nécessitaient constamment plus de tokens que leurs homologues fermés pour les mêmes tâches. Pour les questions de connaissances simples, les modèles ouverts utilisaient parfois trois fois plus de tokens. Bien que cet écart se soit réduit pour des problèmes mathématiques et logiques plus complexes, les modèles ouverts consommaient toujours près de deux fois plus de tokens. L’étude a postulé que les modèles fermés, tels que ceux d’OpenAI et de Grok-4, semblent être optimisés pour l’efficacité des tokens, probablement pour minimiser les coûts opérationnels. En revanche, les modèles ouverts comme DeepSeek et Qwen, bien que consommant plus de tokens, pourraient le faire pour faciliter des processus de raisonnement plus robustes.

Parmi les modèles open source évalués, llama-3.3-nemotron-super-49b-v1 est apparu comme le plus efficace en termes de tokens, tandis que les modèles Magistral se sont avérés être les moins efficaces. Les offres d’OpenAI, en particulier son o4-mini et les nouveaux modèles gpt-oss à poids ouvert, ont démontré une efficacité de tokens remarquable, notamment pour résoudre des problèmes mathématiques. Les chercheurs ont spécifiquement désigné les modèles gpt-oss d’OpenAI, avec leurs chaînes de raisonnement internes concises, comme une référence potentielle pour améliorer l’efficacité des tokens dans l’ensemble du paysage des modèles d’IA open source.

En fin de compte, l’étude souligne une considération cruciale pour les entreprises : le coût réel d’un modèle d’IA s’étend bien au-delà de ses frais de licence ou de déploiement initiaux. Les dépenses opérationnelles à long terme, fortement influencées par la consommation de ressources computationnelles, peuvent rapidement transformer une option open source apparemment moins chère en une entreprise plus coûteuse au fil du temps.