DeepSeek V3.1重磅发布:开源AI巨头挑战OpenAI,性能突破惊艳业界

Venturebeat

人工智能领域正因中国DeepSeek公司最近发布的DeepSeek V3.1而经历着一场巨变。这款拥有高达6850亿参数的开源AI模型于2025年8月19日正式发布,势必加剧全球生成式AI领域的竞争,通过提供突破性的性能和易于获取的技术,直接挑战OpenAI和Anthropic等老牌玩家。

DeepSeek V3.1带来了一系列旨在突破大型语言模型界限的增强功能。一个突出特点是其扩展的上下文窗口,能够处理多达128,000个token,相当于大约96,000个单词——这相当于两本200页的英文小说。这种巨大的容量使模型能够处理更大体量的信息,维持更广泛和连贯的对话,并通过保留更深入的上下文理解来提供更细致的响应。此外,DeepSeek声称其推理能力取得了显著进展,测试显示其多步推理能力比前代产品提高了43%,尽管一些评估表明在处理高度抽象或伦理困境时仍面临挑战。该模型还拥有卓越的多语言支持,精通100多种语言,准确度接近母语水平,并且据报告幻觉减少了38%,增强了其事实可靠性。

DeepSeek V3.1在Hugging Face上以宽松的MIT许可证发布,这凸显了其对开源理念的承诺,使其可以免费下载和使用。这种做法符合中国更广泛的战略,即促进其AI技术的全球普及,优先考虑广泛的可访问性而非眼前的专有利润。该公司此前已展示出以西方同行成本的一小部分开发先进AI的能力;例如,据报道其V3模型仅用600万美元就完成了训练,这与OpenAI的GPT-4在2023年估计花费的1亿美元形成了鲜明对比。这种以显著更少计算能力实现的成本效益,使DeepSeek成为AI行业一股强大的颠覆力量。

在性能基准测试方面,DeepSeek V3.1在几个关键领域展现出竞争优势。在通用语言理解(MMLU)方面,其V3版本表现强劲,得分88.5%,略高于OpenAI的GPT-4o。在编码任务,特别是在HumanEval基准测试中,DeepSeek V3超越了Claude 3.5 Sonnet和GPT-4o。然而,在更复杂的软件工程任务(SWE-bench Verified)和某些数学挑战中,DeepSeek V3.1仍然落后于顶级的专有模型,这表明了未来需要改进的领域。

DeepSeek由梁文锋于2023年7月创立,并获得了中国对冲基金高飞(High-Flyer)的资助,已迅速崛起为AI领域的一个关键参与者。今年早些时候,当其DeepSeek-R1聊天机器人短暂成为美国苹果iPhone商店下载量最高的免费应用程序,甚至超越ChatGPT时,该公司获得了国际关注。这种迅速崛起并非没有审查;美国参议员已就潜在的数据安全漏洞以及中国开源AI模型可能被中国军方利用的风险提出了担忧。DeepSeek及其云合作伙伴,包括AWS、Microsoft Azure和Google Cloud,已通过确保在其平台上托管的R1等模型是本地化的,防止数据发送到中国,从而解决了一些担忧。随着AI社区热切期待DeepSeek下一个主要迭代R2的发布,该公司最新的产品巩固了其在不断发展的开源人工智能领域中作为一股强大且经济高效力量的地位。