Hugging Face:企业削减AI成本的5大秘诀

Venturebeat

企业已普遍接受人工智能模型需要大量计算能力的现实,这导致了对更多资源的持续追求。然而,Hugging Face的AI与气候负责人Sasha Luccioni提出了另一种方法:组织不应无休止地寻求更多算力,而应专注于更智能的利用,以提高模型性能和准确性。Luccioni认为,当前行业关注点存在误区,常常“被对更多FLOPS、更多GPU和更多时间的需求蒙蔽”,而真正的机遇在于优化现有能力。

一个基本策略是根据特定任务合理调整AI模型规模。为每个应用默认使用大规模通用模型效率低下。相反,任务专用或“蒸馏”模型通常可以针对特定工作负载达到甚至超越其大型对应模型的准确性,同时显著降低成本和能耗。例如,Luccioni的测试表明,一个任务专用模型比通用模型能耗低20到30倍,正是因为它针对单一功能进行了优化,而不是试图处理任意请求。蒸馏是一个关键过程,即先训练一个大型模型,然后将其精炼以用于狭窄的应用。像DeepSeek R1这样的完整模型可能需要八个GPU,这对于许多组织来说遥不可及,而其蒸馏版本可以小10倍、20倍甚至30倍,能够在单个GPU上运行。开源模型的日益普及进一步提高了效率,使企业能够微调现有基础模型,而不是从零开始训练,从而促进了协作创新生态系统。随着公司日益应对生成式AI成本与效益不成比例的问题,对特定、高价值AI应用——Luccioni称之为“特定智能”而非通用AI——的需求正成为下一个前沿。

除了模型选择,将效率作为默认设计系统至关重要。这涉及应用“助推理论”这一行为经济学概念,以影响计算选择。通过设定保守的推理预算、限制始终开启的生成功能,并要求用户选择加入高成本计算模式,组织可以巧妙地引导行为走向更节约资源的做法。Luccioni引用了询问顾客是否需要一次性塑料餐具的例子,这大大减少了浪费。同样,她指出流行的搜索引擎如何自动生成AI摘要,或OpenAI的GPT-5如何默认为简单查询启用完整推理模式。对于天气更新或药店营业时间等常见问题,这种广泛的处理通常是不必要的。Luccioni主张默认采用“无推理”模式,将高成本的生成功能保留给复杂的、需选择加入的场景。

优化硬件利用率是另一个关键领域。这包括批处理请求、调整计算精度以及针对底层硬件代际微调批次大小等实践。企业应批判性地评估模型是否真的需要“始终开启”,或者周期性运行和批处理是否足够,从而优化内存使用。Luccioni强调这是一个细致的工程挑战;即使批次大小略微增加,也会因内存需求增加而显著提高能耗,这凸显了根据特定硬件环境进行细致调整的重要性。

为了促进更广泛的效率转变,激励能源透明度至关重要。Hugging Face今年早些时候推出的“AI能耗评分”旨在实现这一目标。这个新颖的1到5星评级系统,类似于电器行业的“能源之星”计划,为模型能耗效率提供了清晰的指标,五星模型代表最高效率。Hugging Face维护着一个定期更新的公共排行榜,目标是将该评级确立为“荣誉徽章”,鼓励模型构建者优先考虑节能设计。

最终,这些策略汇聚成对“算力越多越好”思维模式的根本性反思。企业不应反射性地追求最大的GPU集群,而应首先问:“实现预期结果最智能的方式是什么?”对于许多工作负载而言,卓越的架构设计和精心策划的数据集将始终优于蛮力扩展。Luccioni强调,组织可能需要的GPU数量比他们认为的要少,敦促他们重新评估AI旨在完成的特定任务、以前如何处理这些任务,以及增加计算能力的实际增量效益。当前为争取更大集群而进行的“逐底竞争”需要让位于对目的驱动型AI的战略关注,利用最合适的技术,而不是简单地积累更多原始处理能力。