華為チップ問題でDeepSeekのR2 LLMが遅延、Nvidiaへの切り替えを余儀なくされる
DeepSeekの次世代大規模言語モデルR2のリリースが、華為(ファーウェイ)が自社開発した人工知能チップにおける予期せぬ課題により、大幅に遅れると報じられています。今年初めにR1モデルが大きな注目を集めた後、この著名な中国のAI開発者は、後継モデルを華為の国産シリコンを使用してトレーニングするよう、政府から相当な圧力を受けていました。
しかし、華為の専門エンジニアチームとの協力を含む数ヶ月にわたる集中的な努力の後、DeepSeekは克服できない障害に直面しました。フィナンシャル・タイムズ紙に語った関係者によると、華為のチップは不安定であることが判明し、その相互接続は極めて遅く、付属ソフトウェアは効果的なトレーニングを促進するには未熟すぎました。決定的なことに、DeepSeekは華為のハードウェアで一度もトレーニングを成功させることができませんでした。この根本的な失敗は、データラベリングの困難さと相まって、最終的に同社に開発プロセスを再開させ、コアとなるトレーニング作業のためにNvidiaのH20グラフィックス処理ユニット(GPU)に切り替えざるを得ませんでした。華為のAscendアクセラレーターは、すでにトレーニングされたモデルを実行する推論タスクに降格されたと報じられており、これは計算負荷が低い作業です。
華為のAscendアクセラレーター、特にそのCloudMatrixラック規模コンピューティングプラットフォームを駆動するAscend 910Cは、最近、西側チップの国内代替品として大きな注目を集めています。DeepSeekが使用した華為チップの正確なバージョンは不明ですが、Ascend 910Cは、理論上は印象的なスペックを誇っています。NvidiaのH20と比較して、より多くのビデオRAM(グラフィックス処理専用メモリ)と、AI計算の主要な指標であるBF16浮動小数点性能を2倍以上提供します。メモリ帯域幅ではわずかに劣りますが、これは一般的にモデルトレーニングよりも推論にとって重要性が低いです。
これらの理論的な利点にもかかわらず、大規模言語モデルのトレーニングは、単一のチップの能力をはるかに超える非常に複雑な作業です。それは、人類の最も計算集約的なワークロードの一部を数万のプロセッサに分散させることを伴います。このような分散システムでは、単一のコンポーネントの故障でさえ、最後の安定したチェックポイントからプロセス全体を再起動する必要がある場合があります。このため、AIチップ市場への新規参入者が、システム障害の影響がはるかに少ない推論に最初に焦点を当てることは一般的です。その間に、大規模トレーニングのために技術をスケールアップするために必要な複雑さを解決します。華為は、そのCloudMatrixラックシステムでこの軌跡をたどっているようです。これらのシステムは、同社のチップ上に構築された大規模なトレーニングクラスターの展開を簡素化するように設計されています。
DeepSeekの既存のトレーニングインフラストラクチャは、Nvidiaハードウェアに高度に最適化されており、その元のV3モデル(R1の基礎)の大部分は、効率的な8ビットデータ型であるFP8を使用してトレーニングされていました。華為のAscendチップへの切り替えは、大幅な再構築を必要とし、まったく異なるソフトウェアスタックが必要になるだけでなく、AscendアクセラレーターがFP8をサポートしていないため、DeepSeekはよりメモリ集約的な16ビットデータ型に依存せざるを得なくなります。国産の中国製シリコンで最先端モデルをトレーニングすることの戦略的重要性考慮しても、この技術的な譲歩は、そのような移行の計り知れない課題を浮き彫りにしています。
V4イテレーションではなくR2モデルが具体的に言及された可能性のある説明の一つは、DeepSeekが華為のAscendアクセラレーターをモデルトレーニングの強化学習フェーズに主に使用する意図があったことです。このフェーズは推論に大きく依存しており、既存のベースモデルに高度な推論能力を付与するために、大量の「トークン」(テキストの基本単位)を処理することを伴います。このニュースは、ブルームバーグが中国当局がモデル開発者に対し、特に機密性の高い政府プロジェクトにおいてNvidiaのH20アクセラレーターの使用を控えるよう奨励し始めたと報じた数日後に発表されました。これは、世界のAIチップ情勢に影響を与える地政学的な複雑さが継続していることを強調しています。