开源AI模型:令牌效率低下导致长期成本更高
随着企业越来越多地将人工智能整合到其运营中,一个关键的决策随之产生:是采用开源还是专有AI模型。虽然开源选项乍看起来更经济实惠,但Nous Research最近的一项研究表明,由于其对计算能力的需求更高,这些初始节省可以迅速被侵蚀。本周发布的研究结果表明,开源AI模型在执行相同任务时,通常比其闭源竞争对手消耗更多的计算资源。
为了量化这种资源消耗,Nous Research的研究人员严格测试了几十种AI模型,其中包括来自谷歌和OpenAI等行业巨头的闭源系统,以及来自DeepSeek和Magistral等开发商的开源替代方案。他们仔细测量了每个模型完成一系列任务所需的计算工作,这些任务分为简单的知识问题、数学问题和逻辑谜题。衡量此项指标的主要标准是每个模型用于处理和生成响应的“令牌”数量。
在人工智能领域,令牌代表模型处理的最小文本或数据单元——它可以是一个单词、一个单词片段,甚至是标点符号。AI模型通过按顺序处理这些令牌来理解和生成语言。因此,给定任务的令牌计数越高,直接意味着计算能力需求增加和处理时间延长。该研究强调了一个惊人的差异:“开源模型使用的令牌数量是闭源模型的1.5至4倍——对于简单的知识问题甚至高达10倍——这使得它们有时每查询成本更高,尽管每令牌成本较低,”作者指出。
这种效率差距对部署AI的公司具有重要影响。首先,尽管开源模型的直接托管成本可能较低,但如果模型需要大量令牌来分析和解决问题,这种优势就会迅速消失。其次,令牌数量的增加直接导致生成时间延长和延迟增加,这对于需要快速响应的应用程序可能是有害的。由于大多数闭源模型不披露其内部推理过程或“思维链”,研究人员依赖于总输出令牌——包括模型的内部处理和最终答案——作为计算工作量的可靠替代指标。
研究明确表明,对于相同的任务,开源模型始终比其闭源对应模型需要更多的令牌。对于简单的知识问题,开源模型有时会使用三倍的令牌。尽管对于更复杂的数学和逻辑问题,这种差距有所缩小,但开源模型仍然消耗近两倍的令牌。研究认为,OpenAI和Grok-4等闭源模型似乎针对令牌效率进行了优化,这很可能是为了最大限度地降低运营成本。相比之下,DeepSeek和Qwen等开源模型虽然消耗更多令牌,但这样做可能是为了促进更强大的推理过程。
在评估的开源模型中,llama-3.3-nemotron-super-49b-v1表现出最高的令牌效率,而Magistral模型则被证明效率最低。OpenAI的产品,特别是其o4-mini和较新的开源gpt-oss模型,展现出卓越的令牌效率,尤其是在处理数学问题时。研究人员特别指出OpenAI的gpt-oss模型,其简洁的内部推理链,可以作为提升更广泛开源AI模型令牌效率的潜在基准。
最终,这项研究强调了企业需要考虑的一个关键因素:AI模型的真实成本远远超出了其初始许可或部署费用。长期运营费用,受计算资源消耗的严重影响,可能很快将一个看似更便宜的开源选项,随着时间的推移变成一项更昂贵的投入。