Problèmes de puces Huawei retardent le LLM R2 de DeepSeek, forçant Nvidia
Le lancement anticipé du modèle de langage étendu (LLM) de nouvelle génération de DeepSeek, R2, aurait été considérablement retardé en raison de défis imprévus avec les puces d’intelligence artificielle développées par Huawei. Après les débuts marquants de son modèle R1 plus tôt cette année, le développeur chinois d’IA de premier plan a fait face à une pression gouvernementale considérable pour entraîner son successeur en utilisant le silicium domestique de Huawei.
Cependant, après des mois d’efforts intensifs, qui incluaient la collaboration avec une équipe dédiée d’ingénieurs Huawei, DeepSeek a rencontré des obstacles insurmontables. Des sources proches du dossier, s’exprimant au Financial Times, ont révélé que les puces Huawei se sont avérées instables, leurs interconnexions étaient d’une lenteur glaciaire, et le logiciel d’accompagnement était trop immature pour faciliter un entraînement efficace. De manière cruciale, DeepSeek n’a pas pu achever une seule exécution d’entraînement réussie sur le matériel Huawei. Cet échec fondamental, aggravé par des difficultés d’étiquetage des données, a finalement contraint l’entreprise à redémarrer son processus de développement, en se tournant vers les unités de traitement graphique (GPU) H20 de Nvidia pour ses opérations d’entraînement principales. Les accélérateurs Ascend de Huawei auraient été relégués aux tâches d’inférence, qui impliquent l’exécution de modèles déjà entraînés, une charge de travail computationnelle moins exigeante.
Les accélérateurs Ascend de Huawei, en particulier l’Ascend 910C qui alimente sa plateforme de calcul à l’échelle du rack CloudMatrix, ont récemment suscité une attention considérable en tant qu’alternative nationale aux puces occidentales. Bien que la révision précise des puces Huawei utilisées par DeepSeek reste non divulguée, l’Ascend 910C, sur le papier, affiche des spécifications impressionnantes. Il offre plus de VRAM (mémoire dédiée au traitement graphique) et plus du double des performances en virgule flottante BF16 — une métrique clé pour les calculs d’IA — par rapport au H20 de Nvidia. Bien qu’il soit légèrement en retard en termes de bande passante mémoire, cela est généralement moins critique pour l’entraînement de modèles que pour l’inférence.
Malgré ces avantages théoriques, l’entraînement d’un grand modèle de langage est une entreprise exceptionnellement complexe qui dépasse de loin les capacités d’une seule puce. Cela implique la distribution de certaines des charges de travail les plus gourmandes en calcul de l’humanité sur des dizaines de milliers de processeurs. Dans un tel système distribué, la défaillance d’un seul composant peut nécessiter le redémarrage de l’ensemble du processus à partir du dernier point de contrôle stable. Pour cette raison, il est courant que les nouveaux entrants sur le marché des puces d’IA se concentrent initialement sur l’inférence, où l’impact d’une défaillance du système est beaucoup moins grave, pendant qu’ils résolvent les complexités nécessaires pour adapter leur technologie à l’entraînement à grande échelle. Huawei semble suivre cette trajectoire avec ses systèmes de rack CloudMatrix, qui sont conçus pour simplifier le déploiement de vastes clusters d’entraînement construits sur ses puces.
L’infrastructure d’entraînement existante de DeepSeek était fortement optimisée pour le matériel Nvidia, une grande partie de son modèle V3 original (la base pour R1) ayant été entraînée à l’aide de FP8, un type de données efficace de 8 bits. Un passage aux puces Ascend de Huawei aurait exigé un réoutillage significatif, nécessitant non seulement une pile logicielle entièrement différente, mais obligeant également DeepSeek à s’appuyer sur des types de données de 16 bits plus gourmands en mémoire, car les accélérateurs Ascend ne prennent pas en charge le FP8. Même en tenant compte de l’importance stratégique d’entraîner un modèle de pointe sur du silicium chinois de fabrication nationale, cette concession technique souligne les immenses défis d’une telle transition.
Une explication possible de la mention spécifique du modèle R2, plutôt qu’une itération V4, est que DeepSeek aurait pu avoir l’intention d’utiliser les accélérateurs Ascend de Huawei principalement pour la phase d’apprentissage par renforcement de l’entraînement du modèle. Cette phase dépend fortement de l’inférence, car elle implique le traitement de vastes quantités de “tokens” (unités de texte de base) pour doter un modèle de base existant de capacités de raisonnement avancées. Cette nouvelle survient quelques jours seulement après que Bloomberg a rapporté que les autorités chinoises ont commencé à décourager les développeurs de modèles d’utiliser les accélérateurs H20 de Nvidia, particulièrement pour les projets gouvernementaux sensibles, soulignant les complexités géopolitiques continues qui influencent le paysage mondial des puces d’IA.