Hugging Face : 5 Stratégies pour Réduire les Coûts de l'IA en Entreprise

Venturebeat

Les entreprises ont largement accepté que les modèles d’intelligence artificielle exigent une puissance de calcul substantielle, ce qui conduit à une quête incessante de ressources. Cependant, Sasha Luccioni, responsable de l’IA et du climat chez Hugging Face, propose une approche différente : plutôt que de chercher sans fin plus de puissance de calcul, les organisations devraient se concentrer sur une utilisation plus intelligente pour améliorer la performance et la précision des modèles. Luccioni soutient que l’orientation actuelle de l’industrie est malavisée, trop souvent « aveuglée par le besoin de plus de FLOPS, de plus de GPUs et de plus de temps », alors que la véritable opportunité réside dans l’optimisation des capacités existantes.

Une stratégie fondamentale implique d’adapter la taille des modèles d’IA à leurs tâches spécifiques. Utiliser par défaut des modèles massifs et polyvalents pour chaque application est inefficace. Au lieu de cela, les modèles spécifiques à une tâche ou « distillés » peuvent souvent égaler ou même surpasser la précision de leurs homologues plus grands pour des charges de travail ciblées, tout en réduisant considérablement les coûts et la consommation d’énergie. Les tests de Luccioni, par exemple, ont révélé qu’un modèle spécifique à une tâche pouvait utiliser 20 à 30 fois moins d’énergie qu’un modèle polyvalent, précisément parce qu’il est optimisé pour une fonction singulière plutôt que d’essayer de gérer toute requête arbitraire. La distillation, un processus où un grand modèle est initialement entraîné puis affiné pour une application étroite, est ici essentielle. Un modèle complet comme DeepSeek R1 pourrait nécessiter huit GPUs, le rendant inaccessible pour de nombreuses organisations, tandis que ses versions distillées peuvent être 10, 20, voire 30 fois plus petites, capables de fonctionner sur un seul GPU. La disponibilité croissante de modèles open-source aide également à l’efficacité, permettant aux entreprises de peaufiner des modèles de base existants plutôt que de dépenser des ressources pour un entraînement à partir de zéro, favorisant ainsi un écosystème d’innovation collaborative. Alors que les entreprises sont de plus en plus confrontées aux coûts disproportionnés de l’IA générative par rapport à ses avantages, la demande d’applications d’IA spécifiques et à haute valeur – ce que Luccioni appelle « intelligence spécifique » plutôt que l’IA générale – devient la prochaine frontière.

Au-delà de la sélection de modèles, concevoir des systèmes avec l’efficacité comme valeur par défaut est essentiel. Cela implique l’application de la « théorie du nudge », un concept d’économie comportementale, pour influencer les choix computationnels. En fixant des budgets de raisonnement conservateurs, en limitant les fonctionnalités génératives toujours actives et en exigeant des utilisateurs qu’ils optent pour des modes de calcul à coût élevé, les organisations peuvent subtilement guider le comportement vers des pratiques plus soucieuses des ressources. Luccioni cite l’exemple de demander aux clients s’ils veulent des couverts en plastique avec les commandes à emporter, ce qui réduit considérablement le gaspillage. De même, elle note comment les moteurs de recherche populaires génèrent automatiquement des résumés d’IA, ou comment GPT-5 d’OpenAI passe par défaut en mode de raisonnement complet pour des requêtes simples. Pour des questions courantes comme les mises à jour météorologiques ou les heures d’ouverture des pharmacies, un traitement aussi étendu est souvent inutile. Luccioni plaide pour un mode par défaut « sans raisonnement », avec des fonctionnalités génératives à coût élevé réservées aux scénarios complexes et opt-in.

L’optimisation de l’utilisation du matériel est un autre domaine crucial. Cela implique des pratiques telles que le traitement par lots des requêtes, l’ajustement de la précision de calcul et le réglage fin des tailles de lots spécifiquement pour la génération de matériel sous-jacent. Les entreprises devraient évaluer de manière critique si les modèles doivent vraiment être « toujours actifs » ou si des exécutions périodiques et le traitement par lots pourraient suffire, optimisant ainsi l’utilisation de la mémoire. Luccioni souligne qu’il s’agit d’un défi d’ingénierie nuancé ; même une légère augmentation de la taille du lot peut considérablement augmenter la consommation d’énergie en raison de l’augmentation des demandes de mémoire, soulignant l’importance d’ajustements méticuleux adaptés aux contextes matériels spécifiques.

Pour favoriser un changement plus large vers l’efficacité, il est vital d’encourager la transparence énergétique. Le « AI Energy Score » de Hugging Face, lancé plus tôt cette année, vise précisément cela. Ce nouveau système de notation de 1 à 5 étoiles, similaire au programme « Energy Star » pour les appareils électroménagers, fournit une métrique claire de l’efficacité énergétique des modèles, les modèles cinq étoiles représentant les plus efficaces. Hugging Face maintient un classement public, mis à jour régulièrement, dans le but d’établir cette note comme un « insigne d’honneur » qui encourage les constructeurs de modèles à prioriser une conception soucieuse de l’énergie.

En fin de compte, ces stratégies convergent vers une remise en question fondamentale de la mentalité « plus de puissance de calcul, c’est mieux ». Au lieu de poursuivre par réflexe les plus grands clusters de GPU, les entreprises devraient commencer par se demander : « Quelle est la manière la plus intelligente d’atteindre le résultat souhaité ? » Pour de nombreuses charges de travail, une conception architecturale supérieure et des ensembles de données méticuleusement organisés surpasseront systématiquement l’extrapolation par force brute. Luccioni souligne que les organisations ont probablement besoin de moins de GPUs qu’elles ne le perçoivent, les exhortant à réévaluer les tâches spécifiques que l’IA est censée accomplir, comment ces tâches étaient gérées auparavant, et les avantages incrémentaux réels de l’ajout de plus de puissance de calcul. La « course vers le bas » actuelle pour des clusters plus grands doit céder la place à un focus stratégique sur l’IA axée sur les objectifs, en tirant parti des techniques les plus appropriées plutôt que de simplement accumuler plus de puissance de traitement brute.