DeepSeek : Son modèle d'IA retardé par les puces chinoises Huawei
La poussée ambitieuse de la startup chinoise d’intelligence artificielle DeepSeek pour entraîner son modèle d’IA de prochaine génération, R2, en utilisant des semi-conducteurs Huawei domestiques a rencontré un obstacle significatif, retardant sa sortie et soulignant clairement la dépendance profonde de l’industrie mondiale de l’IA à l’égard de la technologie avancée des puces de Nvidia. Initialement prévu pour un lancement en mai 2025, le modèle R2 de DeepSeek a rencontré des défis techniques “persistants” pendant sa phase d’entraînement avec les puces Ascend de Huawei, obligeant l’entreprise à revenir au matériel Nvidia pour ce processus crucial.
Ce revers met en lumière les formidables obstacles auxquels sont confrontées les entreprises chinoises dans leur quête d’autosuffisance technologique, au milieu de l’escalade des contrôles à l’exportation américains sur la technologie avancée des puces. Pékin a activement encouragé les entreprises d’IA locales à réduire leur dépendance vis-à-vis des fournisseurs étrangers, en particulier américains, favorisant ainsi un écosystème national. DeepSeek, après le lancement réussi en janvier 2025 de son modèle R1, qui reposait largement sur les puces H20 de Nvidia, faisait partie de celles qui ont été incitées à adopter les processeurs Ascend de Huawei pour ses projets ultérieurs.
Malgré l’envoi par Huawei d’une équipe d’ingénieurs pour aider DeepSeek, un entraînement réussi sur la puce Ascend s’est avéré insaisissable. Si DeepSeek continue de travailler avec Huawei pour s’assurer que le modèle R2 est compatible avec Ascend pour les tâches d’inférence, l’entraînement central, qui exige une immense puissance de calcul et un environnement logiciel robuste, reste lié à Nvidia. Cette situation n’est pas unique à DeepSeek ; les initiés de l’industrie reconnaissent largement que les puces fabriquées en Chine, y compris la série Ascend de Huawei, sont toujours en retard par rapport aux offres de Nvidia dans des domaines critiques tels que la stabilité, la connectivité inter-puces et, surtout, la maturité de l’écosystème logiciel. La plateforme CANN de Huawei, conçue comme une rivale de l’omniprésente CUDA de Nvidia, aurait présenté des difficultés et une instabilité pour les développeurs.
La domination durable de Nvidia sur le marché des puces d’IA découle principalement de sa plateforme CUDA complète. Ce cadre de calcul parallèle propriétaire fournit un écosystème logiciel inégalé, offrant des performances inégalées, de vastes outils pour les développeurs et un large support industriel qui est devenu le standard de facto pour le développement de l’IA. Même si les puces concurrentes peuvent offrir une puissance de traitement brute comparable, les noyaux CUDA optimisés de Nvidia pour l’apprentissage profond garantissent des taux d’utilisation supérieurs, faisant de ses GPU le choix préféré pour l’entraînement de modèles d’IA à grande échelle. La synergie intégrée matériel-logiciel, exemplifiée par des technologies comme NVLink, cimente davantage la position de force de Nvidia, rendant incroyablement difficile pour le matériel alternatif de concurrencer efficacement sans une pile logicielle tout aussi mature et largement adoptée.
Les défis rencontrés par DeepSeek soulignent les implications plus larges de la “guerre des puces” en cours entre les États-Unis et la Chine. Si les contrôles à l’exportation américains visent à freiner l’accès de la Chine aux technologies d’IA de pointe, ils ont également involontairement stimulé la volonté de la Chine d’innover et de s’autosuffire dans son secteur des semi-conducteurs. Cependant, l’écart de performance persiste, les entreprises chinoises, y compris des géants technologiques comme ByteDance, Tencent et Alibaba, dépendant toujours fortement des puces H20 de Nvidia pour leur entraînement avancé de modèles d’IA. Le scénario actuel illustre de manière frappante que malgré des investissements gouvernementaux importants et des pressions politiques, combler ce fossé technologique, en particulier dans le domaine complexe de l’entraînement des puces d’IA et de son écosystème logiciel associé, est une entreprise de plusieurs années. Le lancement retardé du R2 de DeepSeek sert de rappel brutal de l’équilibre complexe entre les aspirations géopolitiques et les réalités pratiques du développement technologique avancé dans le monde en évolution rapide de l’intelligence artificielle.