华为芯片问题致DeepSeek R2大模型延期,被迫转向英伟达
据报道,深度求索(DeepSeek)下一代大型语言模型R2的预期发布已被显著推迟,原因在于华为自研人工智能芯片遇到了意想不到的挑战。今年早些时候,深度求索的R1模型首次亮相并产生重大影响后,这家知名的中国人工智能开发商面临巨大的政府压力,要求其使用华为的国产芯片来训练其后续模型。
然而,经过数月密集努力,其中包括与华为工程师团队的紧密合作,深度求索遇到了无法克服的障碍。据《金融时报》援引知情人士透露,华为芯片被证明不稳定,其互连速度极其缓慢,配套软件也过于不成熟,无法有效支持训练。至关重要的是,深度求索甚至未能成功完成一次基于华为硬件的训练运行。这种根本性的失败,加上数据标注方面的困难,最终迫使该公司重新启动开发流程,转而使用英伟达的H20图形处理单元进行其核心训练操作。据报道,华为的昇腾加速器已被降级用于推理任务,即运行已训练好的模型,这是一种计算负载要求较低的工作。
华为昇腾加速器,特别是为其云矩阵(CloudMatrix)机架级计算平台提供动力的昇腾910C,最近作为西方芯片的国产替代品受到了广泛关注。尽管深度求索使用的华为芯片具体版本尚未披露,但从纸面数据来看,昇腾910C拥有令人印象深刻的规格。与英伟达H20相比,它提供了更多的显存(用于图形处理的专用内存)和两倍以上的BF16浮点性能——这是人工智能计算的关键指标。虽然它在内存带宽方面略有滞后,但这对于模型训练来说通常不如推理关键。
尽管有这些理论优势,但训练大型语言模型是一项极其复杂的任务,其复杂程度远超单个芯片的能力。它涉及到将人类计算强度最高的某些工作负载分布到数万个处理器上。在这样的分布式系统中,即使单个组件出现故障,也可能需要从上一个稳定检查点重新启动整个过程。因此,人工智能芯片市场的新进入者通常会首先专注于推理任务,因为系统故障的影响远没有那么严重,同时他们解决将技术扩展到大规模训练所需的复杂性。华为似乎正在通过其云矩阵机架系统遵循这一轨迹,这些系统旨在简化基于其芯片的大规模训练集群的部署。
深度求索现有的训练基础设施已针对英伟达硬件进行了高度优化,其大部分原始V3模型(R1的基础)是使用FP8这种高效的8位数据类型进行训练的。转向华为昇腾芯片将需要进行重大改造,不仅需要完全不同的软件堆栈,而且由于昇腾加速器不支持FP8,深度求索将被迫依赖内存占用更高的16位数据类型。即使考虑到在中国本土芯片上训练前沿模型的战略重要性,这种技术上的让步也凸显了此类转变的巨大挑战。
关于为何特别提及R2模型而非V4迭代的一种可能解释是,深度求索可能原打算主要将华为昇腾加速器用于模型训练的强化学习阶段。该阶段严重依赖推理,因为它涉及处理大量“tokens”(文本的基本单位),以赋予现有基础模型高级推理能力。这一消息发布之际,恰逢彭博社报道称,中国当局已开始劝退模型开发商使用英伟达的H20加速器,尤其是在敏感的政府项目中,这凸显了影响全球人工智能芯片格局的持续地缘政治复杂性。