Problemas con chips de Huawei retrasan el LLM R2 de DeepSeek, obligando a usar Nvidia
El esperado lanzamiento del modelo de lenguaje grande (LLM) de próxima generación de DeepSeek, R2, se ha retrasado significativamente debido a desafíos imprevistos con los chips de inteligencia artificial de desarrollo propio de Huawei. Tras el impactante debut de su modelo R1 a principios de este año, el destacado desarrollador chino de IA enfrentó una considerable presión gubernamental para entrenar a su sucesor utilizando silicio nacional de Huawei.
Sin embargo, después de meses de intenso esfuerzo, que incluyó la colaboración con un equipo dedicado de ingenieros de Huawei, DeepSeek encontró obstáculos insuperables. Fuentes cercanas al asunto, que hablaron con el Financial Times, revelaron que los chips de Huawei resultaron inestables, sus interconexiones eran glacialmente lentas y el software que los acompañaba era demasiado inmaduro para facilitar un entrenamiento efectivo. Crucialmente, DeepSeek no pudo completar ni una sola ejecución de entrenamiento exitosa en el hardware de Huawei. Este fallo fundamental, agravado por dificultades en el etiquetado de datos, finalmente obligó a la compañía a reiniciar su proceso de desarrollo, pivotando hacia las unidades de procesamiento gráfico (GPU) H20 de Nvidia para sus operaciones de entrenamiento principales. Los aceleradores Ascend de Huawei, según se informa, han sido relegados a tareas de inferencia, que implican la ejecución de modelos ya entrenados, una carga de trabajo computacional menos exigente.
Los aceleradores Ascend de Huawei, particularmente el Ascend 910C que impulsa su plataforma de computación a escala de rack CloudMatrix, han ganado recientemente una atención sustancial como una alternativa nacional a los chips occidentales. Si bien la revisión precisa de los chips de Huawei utilizados por DeepSeek permanece sin revelar, el Ascend 910C, sobre el papel, cuenta con especificaciones impresionantes. Ofrece más VRAM (memoria dedicada para el procesamiento de gráficos) y más del doble del rendimiento de punto flotante BF16 —una métrica clave para los cálculos de IA— en comparación con el H20 de Nvidia. Aunque se queda ligeramente atrás en el ancho de banda de memoria, esto es generalmente menos crítico para el entrenamiento de modelos que para la inferencia.
A pesar de estas ventajas teóricas, el entrenamiento de un modelo de lenguaje grande es una tarea excepcionalmente compleja que va mucho más allá de las capacidades de un solo chip. Implica distribuir algunas de las cargas de trabajo computacionalmente más intensivas de la humanidad entre decenas de miles de procesadores. En un sistema distribuido de este tipo, el fallo de un solo componente puede requerir reiniciar todo el proceso desde el último punto de control estable. Por esta razón, es común que los nuevos participantes en el mercado de chips de IA se centren inicialmente en la inferencia, donde el impacto de un fallo del sistema es mucho menos severo, mientras resuelven las complejidades necesarias para escalar su tecnología para el entrenamiento a gran escala. Huawei parece estar siguiendo esta trayectoria con sus sistemas de rack CloudMatrix, que están diseñados para simplificar el despliegue de extensos clústeres de entrenamiento construidos sobre sus chips.
La infraestructura de entrenamiento existente de DeepSeek estaba altamente optimizada para el hardware de Nvidia, con gran parte de su modelo V3 original (la base para R1) entrenado utilizando FP8, un tipo de datos eficiente de 8 bits. Un cambio a los chips Ascend de Huawei habría exigido una reestructuración significativa, no solo requiriendo una pila de software completamente diferente, sino también obligando a DeepSeek a depender de tipos de datos de 16 bits que consumen más memoria, ya que los aceleradores Ascend no son compatibles con FP8. Incluso considerando la importancia estratégica de entrenar un modelo de vanguardia con silicio chino de fabricación propia, esta concesión técnica subraya los inmensos desafíos de tal transición.
Una posible explicación para la mención específica del modelo R2, en lugar de una iteración V4, es que DeepSeek podría haber tenido la intención de utilizar los aceleradores Ascend de Huawei principalmente para la fase de aprendizaje por refuerzo del entrenamiento del modelo. Esta fase depende en gran medida de la inferencia, ya que implica el procesamiento de grandes cantidades de “tokens” (unidades básicas de texto) para dotar a un modelo base existente de capacidades de razonamiento avanzadas. Esta noticia llega pocos días después de que Bloomberg informara que las autoridades chinas han comenzado a desaconsejar a los desarrolladores de modelos el uso de los aceleradores H20 de Nvidia, particularmente para proyectos gubernamentales sensibles, lo que subraya las continuas complejidades geopolíticas que influyen en el panorama global de los chips de IA.