Huawei-Chip-Probleme verzögern DeepSeeks R2 LLM, erzwungener Nvidia-Wechsel
Der erwartete Start von DeepSeeks Large Language Model (LLM) der nächsten Generation, R2, wurde Berichten zufolge aufgrund unvorhergesehener Herausforderungen mit Huaweis selbst entwickelten künstlichen Intelligenz-Chips erheblich verzögert. Nach dem impactfulen Debüt seines R1-Modells Anfang dieses Jahres sah sich der prominente chinesische KI-Entwickler erheblichem staatlichem Druck ausgesetzt, seinen Nachfolger mithilfe von Huaweis heimischem Silizium zu trainieren.
Nach Monaten intensiver Anstrengungen, die auch die Zusammenarbeit mit einem engagierten Team von Huawei-Ingenieuren umfassten, stieß DeepSeek jedoch auf unüberwindbare Hindernisse. Quellen, die dem Financial Times nahestehen, enthüllten, dass die Huawei-Chips sich als instabil erwiesen, ihre Interconnects extrem langsam waren und die begleitende Software zu unreif war, um ein effektives Training zu ermöglichen. Entscheidend war, dass DeepSeek nicht einmal einen einzigen erfolgreichen Trainingslauf auf der Huawei-Hardware abschließen konnte. Dieses grundlegende Versagen, verstärkt durch Schwierigkeiten bei der Datenbeschriftung, zwang das Unternehmen schließlich dazu, seinen Entwicklungsprozess neu zu starten und für seine Kerntrainingsoperationen auf Nvidias H20-Grafikprozessoren (GPUs) umzusteigen. Huaweis Ascend-Beschleuniger wurden Berichten zufolge auf Inferenzaufgaben verbannt, die das Ausführen bereits trainierter Modelle beinhalten, eine weniger anspruchsvolle Rechenlast.
Huaweis Ascend-Beschleuniger, insbesondere der Ascend 910C, der seine CloudMatrix Rack-Scale-Computing-Plattform antreibt, haben in letzter Zeit als heimische Alternative zu westlichen Chips erhebliche Aufmerksamkeit erregt. Obwohl die genaue Revision der von DeepSeek verwendeten Huawei-Chips nicht bekannt gegeben wurde, weist der Ascend 910C auf dem Papier beeindruckende Spezifikationen auf. Er bietet mehr Video-RAM (dedizierter Speicher für die Grafikverarbeitung) und mehr als die doppelte BF16-Gleitkommaleistung – eine Schlüsselmetrik für KI-Berechnungen – im Vergleich zu Nvidias H20. Obwohl er bei der Speicherbandbreite leicht hinterherhinkt, ist dies für das Modelltraining im Allgemeinen weniger kritisch als für die Inferenz.
Trotz dieser theoretischen Vorteile ist das Training eines großen Sprachmodells ein außergewöhnlich komplexes Unterfangen, das weit über die Fähigkeiten eines einzelnen Chips hinausgeht. Es beinhaltet die Verteilung einiger der rechenintensivsten Arbeitslasten der Menschheit auf Zehntausende von Prozessoren. In einem solchen verteilten System kann der Ausfall selbst einer einzelnen Komponente das Neustarten des gesamten Prozesses vom letzten stabilen Prüfpunkt erforderlich machen. Aus diesem Grund ist es üblich, dass neue Marktteilnehmer im Bereich der KI-Chips sich zunächst auf die Inferenz konzentrieren, wo die Auswirkungen eines Systemausfalls weitaus weniger schwerwiegend sind, während sie die Komplexitäten ausarbeiten, die erforderlich sind, um ihre Technologie für das groß angelegte Training zu skalieren. Huawei scheint diesen Weg mit seinen CloudMatrix-Rack-Systemen zu verfolgen, die darauf ausgelegt sind, die Bereitstellung umfangreicher Trainingscluster, die auf seinen Chips basieren, zu vereinfachen.
DeepSeeks bestehende Trainingsinfrastruktur war stark für Nvidia-Hardware optimiert, wobei ein Großteil ihres ursprünglichen V3-Modells (die Grundlage für R1) unter Verwendung von FP8, einem effizienten 8-Bit-Datentyp, trainiert wurde. Ein Wechsel zu Huaweis Ascend-Chips hätte eine erhebliche Umstellung erfordert, nicht nur eine völlig andere Software-Stack, sondern auch DeepSeek gezwungen, sich auf speicherintensivere 16-Bit-Datentypen zu verlassen, da Ascend-Beschleuniger FP8 nicht unterstützen. Selbst unter Berücksichtigung der strategischen Bedeutung des Trainings eines Spitzenmodells auf heimischem chinesischem Silizium unterstreicht dieses technische Zugeständnis die immensen Herausforderungen eines solchen Übergangs.
Eine mögliche Erklärung für die spezifische Erwähnung des R2-Modells anstelle einer V4-Iteration ist, dass DeepSeek möglicherweise beabsichtigt hatte, Huaweis Ascend-Beschleuniger hauptsächlich für die Reinforcement-Learning-Phase des Modelltrainings zu verwenden. Diese Phase ist stark auf Inferenz angewiesen, da sie die Verarbeitung großer Mengen von “Tokens” (grundlegende Texteinheiten) beinhaltet, um einem bestehenden Basismodell fortgeschrittene Denkfähigkeiten zu verleihen. Diese Nachricht kommt nur wenige Tage, nachdem Bloomberg berichtete, dass chinesische Behörden begonnen haben, Modellentwickler vom Einsatz von Nvidias H20-Beschleunigern abzuraten, insbesondere für sensible Regierungsprojekte, was die anhaltenden geopolitischen Komplexitäten unterstreicht, die die globale KI-Chip-Landschaft beeinflussen.