DeepSeek AI模型华为芯片训练受挫,发布延期
中国人工智能公司深度求索(DeepSeek)据报道已推迟其新款R2模型的发布,这一挫折归因于在使用华为昇腾处理器进行训练时遇到的持续技术困难。此次延期凸显了北京在雄心勃勃地推动用国内替代品取代外国(特别是美国)技术方面所面临的重大障碍。
据知情人士透露,继今年1月发布R1模型后,中国当局曾鼓励深度求索在R2模型中采用华为昇腾芯片,而非主流的英伟达系统。然而,深度求索在R2模型使用昇腾芯片进行密集训练阶段时迅速遭遇问题。因此,该公司转而使用英伟达芯片进行关键训练过程,而将华为芯片保留用于要求较低的推理阶段——即训练好的模型应用其知识来生成预测或响应,例如聊天机器人查询。
华为硬件的技术障碍是R2模型发布从5月推迟的主要原因,这一延误使得竞争对手得以取得进展。业内人士指出,中国芯片(包括华为芯片)在关键领域仍落后于美国同行,存在一系列性能差距。据报道,这些缺陷包括稳定性问题、较慢的芯片间连接速度以及与英伟达产品相比不够强大的配套软件。
尽管华为已派遣工程师团队前往深度求索办公室协助R2模型在昇腾芯片上的开发,但双方的合作并未成功完成训练运行。据报道,深度求索仍在与华为合作,以确保该模型与昇腾芯片在推理阶段的兼容性,这表明在可行的情况下,公司仍致力于使用国内硬件。
这些挑战在公司内部并未被忽视。深度求索创始人梁文峰对R2的进展表示不满,据报道他正在争取更多时间和资源来开发一款先进模型,以在快速发展的人工智能领域保持公司的竞争优势。除了与芯片相关的延误,R2的发布还受到其更新模型数据标注要求超出预期的影响。尽管遭遇这些挫折,中国媒体报道称该模型仍可能在未来几周内发布。
深度求索困境的更广泛背景是北京对技术自力更生日益加剧的推动。《金融时报》最近报道称,中国科技公司现在需要为其订购英伟达H20芯片的行为提供正当理由,此举明确旨在促进华为和寒武纪等公司的国内替代品。这种压力凸显了在地缘政治竞争中对本土技术的战略重要性。
加州大学伯克利分校的人工智能研究员Ritwik Gupta评论了人工智能市场的动态性质,指出“模型是易于互换的商品”。他引用阿里巴巴的通义千问Qwen3作为强大且灵活的替代品,该模型已成功整合了深度求索的核心概念,例如其具备推理能力的训练算法,使其效率更高。密切关注华为人工智能生态系统的Gupta承认,该公司在使用昇腾芯片进行训练方面正经历“成长的烦恼”。但他对华为的长期前景保持乐观,表示:“仅仅因为我们今天没有看到领先模型在华为芯片上训练,不意味着未来不会发生。这只是时间问题。”
与此同时,作为中美科技竞争核心参与者的英伟达,最近与美国政府达成收入分成协议,以恢复其H20芯片对中国的销售。这家芯片制造商强调了开发者在构建成功人工智能生态系统中的重要性,认为“放弃整个市场和开发者只会损害美国的经济和国家安全”。深度求索和华为均未回应就此事发表评论的请求。