警惕!研究揭示开源AI模型计算资源消耗惊人,或抵消成本优势

Venturebeat

一份新的全面研究揭示了对普遍观念的重大挑战,即开源人工智能模型比其专有对应模型具有明显的经济优势。AI公司Nous Research进行的研究表明,开源模型在执行相同任务时消耗的计算资源大大增加,这可能侵蚀其所谓的成本效益,并需要重新评估企业AI部署策略。

这项研究分析了19种不同的AI模型,涵盖了包括基本知识问题、数学问题和逻辑谜题在内的一系列任务,发现开源模型使用的令牌(AI计算的基本单位)是OpenAI和Anthropic等开发商的闭源模型的1.5到4倍。对于简单的知识查询,这种差异尤为显著,一些开源模型消耗的令牌多达10倍。研究人员在报告中指出,虽然开源模型通常具有较低的单位令牌运行成本,但如果它们“需要更多令牌来推理给定问题”,这种优势就可能“很容易被抵消”,从而导致每次查询的成本更高。

研究考察的一个关键指标是“令牌效率”,它衡量模型相对于其解决方案的复杂性使用了多少计算单位。尽管这一指标对成本具有深远影响,但迄今为止却鲜有系统性研究。这种低效率在大型推理模型(LRMs)中尤为突出,这些模型采用扩展的“思维链”(逐步推理过程)来解决复杂问题。令人惊讶的是,这些模型在思考本应需要最少计算的简单问题(例如“澳大利亚的首都是哪里?”)时,可能会消耗数百甚至数千个令牌。

研究揭示了不同模型提供商之间效率的显著差异。OpenAI的模型,包括其o4-mini和新发布的开源gpt-oss变体,展现了卓越的令牌效率,尤其是在数学问题上,使用的令牌比其他商业模型少三倍。在开源选项中,Nvidia的llama-3.3-nemotron-super-49b-v1在所有领域都表现出最高的令牌效率,而Magistral等公司的新模型则表现出异常高的令牌使用量,成为异类。虽然开源模型在数学和逻辑问题上使用的令牌大约是闭源模型的两倍,但对于不需要大量推理的简单知识问题,这一差距急剧扩大。

这些发现对企业AI的采用具有即时且重大的影响,因为计算成本会随着使用量的增加而迅速攀升。评估AI模型的公司通常优先考虑准确性基准和单位令牌定价,却常常忽视实际任务所需的总计算量。研究得出结论:“当分析总推理成本时,闭源模型的更高令牌效率通常可以弥补其更高的API定价。”这表明专有模型提供商积极优化其产品以提高效率,迭代地减少令牌使用以降低推理成本。相反,一些开源模型在新版本中显示出更高的令牌使用量,这可能反映了它们优先考虑更好的推理性能而非计算节俭。

衡量不同模型架构的效率带来了独特的挑战,尤其是在许多闭源模型不公开其原始推理过程的情况下。为规避这一点,研究人员使用“完成令牌”(每次查询的总计费计算单位)作为推理工作的代理。他们发现,大多数最新的闭源模型提供了其内部计算的压缩摘要,通常使用较小的语言模型来转录复杂的思维链,从而保护其专有技术。该研究的方法还包括使用修改版知名问题进行测试,例如更改数学竞赛问题中的变量,以最大程度地减少记忆解决方案的影响。

展望未来,研究人员主张将令牌效率与准确性一同作为未来模型开发的主要优化目标。他们建议,更“密集化的思维链”(CoT)将允许更高效的上下文使用,并可以抵消在具有挑战性的推理任务中出现的上下文降级。OpenAI的开源gpt-oss模型的出现,将最先进的效率与可自由访问的思维链相结合,可以作为优化其他开源模型的关键参考点。随着AI行业竞相追求更强大的推理能力,这项研究强调,真正的竞争可能不仅仅在于谁能构建最智能的AI,而在于谁能构建最高效的AI。毕竟,在一个每个令牌都至关重要的生态系统中,最浪费的模型,无论其智力多么高超,最终都可能因成本过高而被市场淘汰。