针对代理AI的SLM：为何小型模型胜过大型语言模型

代理式人工智能这一新兴领域，目前估值已超过52亿美元，并预计到2034年将飙升至2000亿美元，预示着人工智能将像互联网一样无处不在的时代。然而，这种快速扩张面临一个根本性挑战：它依赖于庞大且耗能巨大的大型语言模型（LLM）。尽管LLM拥有令人印象深刻的、接近人类的能力，但对于专业任务而言，它们通常代表着一种低效的“杀鸡用牛刀”方法，导致成本高昂、能源大量浪费并抑制创新。

然而，一种引人注目的替代方案正在浮现。英伟达在其论文《小型语言模型是代理式AI的未来》中详细阐述的研究，倡导将小型语言模型（SLM）作为一种更智能、更可持续的前进道路。SLM被定义为足够紧凑，可以在普通消费电子设备上运行，并以足够低的延迟进行推理，以满足单用户代理请求实际使用的语言模型。截至2025年，这通常包括参数少于100亿的模型。该论文认为，SLM不仅是LLM的可行替代方案，而且在许多场景下，它们凭借其惊人的能力、经济优势和固有的灵活性，是更优越的选择。

鉴于人工智能领域长期存在的“越大越好”范式，人们很容易低估SLM。然而，最近的进展表明，小型模型可以在各种任务中与大型模型媲美甚至超越其性能。例如，微软的Phi-2仅有27亿参数，却能达到与300亿参数模型相当的常识推理和代码生成分数，同时运行速度快约15倍。70亿参数的Phi-3小型模型进一步扩展了这一点，在语言理解、推理和代码生成方面可与比其大十倍的模型匹敌。同样，英伟达的Nemotron-H系列，参数范围从20亿到90亿，在指令遵循和代码生成精度方面与300亿参数的密集型LLM不相上下，而推理成本仅为一小部分。甚至Huggingface的SmolLM2系列，模型参数从1.25亿到17亿不等，也能达到与同代140亿参数模型，甚至是两年前的700亿参数模型相似的性能。这些例子清晰地表明：凭借现代训练技术、复杂的提示工程和代理式增强，性能不再仅仅由规模决定。

SLM的经济论证尤其引人注目。在推理效率方面，服务一个70亿参数的SLM比服务一个700亿到1750亿参数的LLM便宜10到30倍，这考虑了延迟、能耗和计算操作（FLOPs）。这意味着可以大规模实现实时代理响应，而无需高昂的成本。此外，SLM的敏捷微调能力允许快速迭代和适应——新的行为或错误修复可以在数小时而非数周内实现。SLM还支持边缘部署，直接在消费级GPU上运行，这有助于实现实时、离线代理推理，降低延迟并增强数据控制。这为设备上AI开辟了新的可能性。此外，SLM促进了模块化系统设计，允许开发者将更小、更专业的模型组合起来执行不同的任务，类似于用乐高积木搭建。这种方法不仅更具成本效益，而且更易于调试和部署，更符合现实世界AI代理的操作多样性。

世界并非一刀切的环境，分配给AI代理的任务也并非如此。这正是SLM灵活性真正发挥优势的地方。它们更小的尺寸和更低的训练成本使得能够创建多个针对不同代理例程量身定制的专业模型。这种适应性允许无缝响应不断变化的用户需求，轻松遵守不同市场不断变化的法规，而无需重新训练一个庞大的模型，并通过降低准入门槛，使更广泛的参与者和组织实现AI的民主化。

尽管SLM有充分的理由，但业界仍大量投资于LLM。英伟达的论文指出了SLM普及的三个主要障碍：已在集中式LLM推理基础设施上投入的巨额前期投资，AI社区历史上对偏向大型模型的通用基准的关注，以及与LLM相比，SLM由于市场营销和媒体关注较少而普遍缺乏认知。然而，这些障碍并非不可逾越。随着SLM的经济效益被更广泛地认可，以及支持它们的新工具和基础设施的出现，预计将逐步转向以SLM为中心的方法。

该论文甚至提供了一个将代理式应用程序从LLM转换为SLM的实用六步路线图。这个过程首先通过记录所有非人机交互代理调用（包括输入提示和输出响应）来确保使用数据收集。接下来是细致的数据整理和过滤，以删除敏感信息并准备用于微调的数据集。下一步是任务聚类，以识别重复的请求模式或内部代理操作，这有助于定义SLM专业化的候选任务。随后，根据能力、性能、许可和部署足迹，为每个已识别的任务选择最佳SLM。这将导致使用特定任务数据集进行专业化SLM微调。最后一步涉及持续迭代和完善，其中SLM和路由模型会定期使用新数据进行再训练，以保持性能并适应不断变化的使用模式。这个可操作的计划为组织提供了今天就开始利用SLM优势的清晰途径。

人工智能革命已然降临，但其可持续扩展性不能仅靠能源密集型LLM实现。代理式AI的未来将建立在SLM——小型、高效且固有灵活——之上。英伟达的研究既是警钟，也是实用路线图，挑战了业界对LLM的痴迷，同时证明SLM能以极低的成本提供可媲美的性能。这种范式转变超越了技术本身，预示着一个更可持续、更公平、更具创新性的人工智能生态系统。即将到来的SLM浪潮甚至有望推动硬件创新，有报道指出英伟达已在开发专门为这些紧凑型“动力室”优化的处理单元。

针对代理AI的SLM：为何小型模型胜过大型语言模型

相关文章

LLM“思维链”：脆弱的模式匹配，而非真正推理

精神科医生警告：AI聊天机器人正引发严重精神健康危机

麻省理工：95%企业生成式AI项目因整合不力而失败