DeepSeek R2 延期:华为芯片问题迫使其转用英伟达
DeepSeek备受期待的R2大型语言模型发布据报道已被推迟,这一挫折归因于华为昇腾处理器的持续性能问题。正如《金融时报》所报道的,这一进展突显了北京在雄心勃勃地用国产解决方案取代美国技术的努力中面临的严峻挑战。
在DeepSeek的R1模型取得成功并在AI社区引起广泛关注之后,据报道,中国政府官员鼓励这家初创公司在其随后的R2开发中利用国产昇腾芯片,而不是继续使用英伟达处理器。然而,DeepSeek在尝试使用昇腾芯片进行R2训练过程中遇到了巨大的技术障碍。这些困难最终迫使该公司在密集的训练阶段重新使用英伟达芯片,但仍计划在推理阶段(将训练好的模型应用于新数据的过程)使用华为的处理器。
这一战略转变发生在中国不断演变的出口法规和国内压力的更广阔背景下。美国出口规则的最新调整已允许某些英伟达和AMD GPU(特别是英伟达H20和AMD MI308)运往中国。据报道,这些芯片的性能大致与中国国产GPU相当。与此同时,有报道称中国当局正在加强对企业的审查,要求它们为其继续依赖美国制造的GPU提供理由。
《金融时报》引用的消息来源指出,与英伟达的产品相比,华为处理器表现出几项关键缺陷,包括稳定性问题、芯片间连接速度较慢以及配套软件较差。为了克服这些障碍,据报道,一支华为技术人员团队直接与DeepSeek进行了现场合作。尽管付出了这些协同努力,但仍未能实现在昇腾处理器上成功进行训练。
这种情况凸显了国家战略目标、技术能力和市场现实之间复杂的相互作用。尽管中国正在积极寻求关键技术的自给自足,但DeepSeek的案例表明,先进AI加速器的性能差距仍然是一个重大障碍。《金融时报》的报道指出,DeepSeek的R2模型仍可能在未来几周内发布,据推测是在英伟达硬件上成功训练之后。