英伟达呼吁转向更小、更高效的LLM以赋能AI智能体

Decoder

英伟达的研究人员正敦促人工智能行业批判性地重新评估其对AI智能体系统过度依赖大规模语言模型(LLM)的现状,并指出当前的轨迹在经济和环境上都是不可持续的。相反,他们提出向更小、更高效的语言模型(他们称之为“小型语言模型”(SLM))进行战略性转变。

支撑当前方法的财务差异是显而易见的。2024年,为许多智能体系统提供动力的LLM API市场价值达56亿美元。然而,支持这些系统所需的云基础设施支出却远远超过这一数字,估计达到570亿美元——相差十倍。正如研究人员在他们最近的论文中强调的那样,这种根深蒂固的运营模式是巨额资本投资的基石。

英伟达团队认为,对于大多数AI智能体工作负载而言,参数少于100亿的SLM通常“原则上足够强大”、“本质上更适合操作”且“必然更经济”。他们引用了引人注目的例子:微软的Phi-2,尽管规模适中,但在推理和代码生成方面据称可与300亿参数的LLM媲美,同时运行速度快15倍。同样,英伟达自己的Nemotron-H模型,参数高达90亿,据报道在使用显著更少计算能力的情况下,实现了与300亿参数LLM相当的准确性。其他模型如Deepseek-R1-Distill-Qwen-7B和DeepMind的RETRO也被提出,作为证明小型系统在关键任务上可以匹配甚至超越大型专有模型性能的证据。

SLM的经济优势尤其引人注目。运行一个70亿参数的模型比运行一个700亿至1750亿参数的LLM成本低10到30倍,这一计算考虑了延迟、能耗和原始计算需求。此外,针对特定应用对SLM进行微调只需数小时的GPU时间,这与大型模型通常所需的数周形成鲜明对比,大大加快了适应速度。许多SLM还具备在消费级硬件上本地运行的能力,这不仅减少了延迟,还赋予用户对其数据隐私更大的控制权。研究人员还指出,SLM倾向于更有效地利用其参数,而大型模型在任何给定输入下通常只激活其庞大参数总数的一小部分,导致固有的低效。他们认为,AI智能体本质上是“受到严格指令和外部编排的语言模型网关”,很少需要LLM提供的全部功能。鉴于大多数智能体任务是重复的、范围狭窄且非对话性的,为这些特定格式微调的专用SLM是更好的选择。建议很明确:构建异构智能体系统,默认使用SLM,仅在真正需要复杂推理的情况下才保留大型模型。

尽管有这些明显的好处,SLM的转型仍面临重大障碍。英伟达团队将行业对集中式LLM基础设施的巨额投资、对广泛基准分数的普遍关注以及公众对小型模型先进能力的普遍缺乏认知,视为主要障碍。为促进这一转变,他们提出了一个六步计划,包括数据收集和整理、任务聚类、适当的SLM选择、针对特定需求的微调以及持续改进。他们的案例研究表明,这一转变具有巨大的潜力,发现在MetaGPT、Open Operator和Cradle等流行的开源智能体中,40%到70%的LLM查询可以由SLM同样有效地处理。

对许多人来说,向SLM的转型不仅是技术上的改进,正如研究人员所说,也是一种“休谟式的道德义务”。鉴于运营成本的上升和大规模AI基础设施日益增长的环境影响,这一伦理维度变得越来越重要,Mistral最近对其最大模型能耗的详细数据进一步强调了这一担忧。对于作为LLM繁荣主要受益者的英伟达来说,倡导小型模型可能看起来自相矛盾。然而,通过倡导更易于访问和高效的AI,英伟达可以显著扩大整个AI市场,使该技术更深入地嵌入到企业和消费设备中。该公司正在积极寻求社区反馈,并计划在线发布选定的回复,这表明其真心希望促进这场重要的行业对话。