开源AI模型：令牌效率低下导致长期成本更高

随着企业越来越多地将人工智能整合到其运营中，一个关键的决策随之产生：是采用开源还是专有AI模型。虽然开源选项乍看起来更经济实惠，但Nous Research最近的一项研究表明，由于其对计算能力的需求更高，这些初始节省可以迅速被侵蚀。本周发布的研究结果表明，开源AI模型在执行相同任务时，通常比其闭源竞争对手消耗更多的计算资源。

为了量化这种资源消耗，Nous Research的研究人员严格测试了几十种AI模型，其中包括来自谷歌和OpenAI等行业巨头的闭源系统，以及来自DeepSeek和Magistral等开发商的开源替代方案。他们仔细测量了每个模型完成一系列任务所需的计算工作，这些任务分为简单的知识问题、数学问题和逻辑谜题。衡量此项指标的主要标准是每个模型用于处理和生成响应的“令牌”数量。

在人工智能领域，令牌代表模型处理的最小文本或数据单元——它可以是一个单词、一个单词片段，甚至是标点符号。AI模型通过按顺序处理这些令牌来理解和生成语言。因此，给定任务的令牌计数越高，直接意味着计算能力需求增加和处理时间延长。该研究强调了一个惊人的差异：“开源模型使用的令牌数量是闭源模型的1.5至4倍——对于简单的知识问题甚至高达10倍——这使得它们有时每查询成本更高，尽管每令牌成本较低，”作者指出。

这种效率差距对部署AI的公司具有重要影响。首先，尽管开源模型的直接托管成本可能较低，但如果模型需要大量令牌来分析和解决问题，这种优势就会迅速消失。其次，令牌数量的增加直接导致生成时间延长和延迟增加，这对于需要快速响应的应用程序可能是有害的。由于大多数闭源模型不披露其内部推理过程或“思维链”，研究人员依赖于总输出令牌——包括模型的内部处理和最终答案——作为计算工作量的可靠替代指标。

研究明确表明，对于相同的任务，开源模型始终比其闭源对应模型需要更多的令牌。对于简单的知识问题，开源模型有时会使用三倍的令牌。尽管对于更复杂的数学和逻辑问题，这种差距有所缩小，但开源模型仍然消耗近两倍的令牌。研究认为，OpenAI和Grok-4等闭源模型似乎针对令牌效率进行了优化，这很可能是为了最大限度地降低运营成本。相比之下，DeepSeek和Qwen等开源模型虽然消耗更多令牌，但这样做可能是为了促进更强大的推理过程。

在评估的开源模型中，llama-3.3-nemotron-super-49b-v1表现出最高的令牌效率，而Magistral模型则被证明效率最低。OpenAI的产品，特别是其o4-mini和较新的开源gpt-oss模型，展现出卓越的令牌效率，尤其是在处理数学问题时。研究人员特别指出OpenAI的gpt-oss模型，其简洁的内部推理链，可以作为提升更广泛开源AI模型令牌效率的潜在基准。

最终，这项研究强调了企业需要考虑的一个关键因素：AI模型的真实成本远远超出了其初始许可或部署费用。长期运营费用，受计算资源消耗的严重影响，可能很快将一个看似更便宜的开源选项，随着时间的推移变成一项更昂贵的投入。

开源AI模型：令牌效率低下导致长期成本更高

相关文章

警惕！研究揭示开源AI模型计算资源消耗惊人，或抵消成本优势

深度无知：EleutherAI数据过滤铸就开放权重LLM防篡改AI安全

MoA：多智能体LLM协作，超越GPT-4，成本更低