DeepSeek R2 Retrasado: Chips Huawei Obligan a Usar NVIDIA
El lanzamiento del muy esperado modelo de lenguaje grande R2 de DeepSeek ha sido supuestamente retrasado, un contratiempo atribuido a problemas persistentes de rendimiento con los procesadores Ascend de Huawei. Este desarrollo, según informó el Financial Times, subraya los importantes desafíos que enfrenta Beijing en su ambiciosa campaña para reemplazar la tecnología estadounidense con soluciones de fabricación propia.
Tras el éxito anterior del modelo R1 de DeepSeek, que obtuvo una considerable atención en la comunidad de IA, funcionarios del gobierno chino supuestamente animaron a la startup a utilizar chips Ascend nacionales para su posterior desarrollo del R2, en lugar de continuar con los procesadores NVIDIA. Sin embargo, DeepSeek encontró obstáculos técnicos sustanciales durante el proceso de entrenamiento del R2 al intentar usar los chips Ascend. Estas dificultades finalmente obligaron a la compañía a volver a los chips NVIDIA para la fase de entrenamiento intensivo, aunque todavía planea usar los procesadores de Huawei para la etapa de inferencia, el proceso de aplicar el modelo entrenado a nuevos datos.
Este giro estratégico se produce en medio de un panorama más amplio de regulaciones de exportación en evolución y presiones internas dentro de China. Ajustes recientes a las reglas de exportación de EE. UU. han permitido el envío de ciertas GPUs de NVIDIA y AMD, específicamente la NVIDIA H20 y la AMD MI308, a China. Se informa que estos chips están diseñados para ofrecer un rendimiento aproximadamente comparable al de las GPUs desarrolladas en China. Al mismo tiempo, hay informes de que las autoridades chinas están examinando cada vez más a las empresas, solicitando justificaciones para su continua dependencia de las GPUs de fabricación estadounidense.
Fuentes citadas por el Financial Times indicaron que los procesadores de Huawei exhibieron varias deficiencias críticas en comparación con las ofertas de NVIDIA, incluyendo problemas de estabilidad, conectividad inter-chip más lenta y software de acompañamiento inferior. En un esfuerzo por superar estos obstáculos, un equipo de técnicos de Huawei supuestamente colaboró directamente con DeepSeek en el sitio. A pesar de estos esfuerzos concertados, no se pudo lograr una ejecución de entrenamiento exitosa con los procesadores Ascend.
La situación destaca la compleja interacción entre los objetivos estratégicos nacionales, las capacidades tecnológicas y las realidades del mercado. Si bien China persigue agresivamente la autosuficiencia en tecnologías críticas, el caso DeepSeek sugiere que la brecha de rendimiento en los aceleradores de IA avanzados sigue siendo un obstáculo significativo. El informe del Financial Times indica que el modelo R2 de DeepSeek aún podría ver su lanzamiento en las próximas semanas, presumiblemente después de su exitoso entrenamiento en hardware NVIDIA.