英伟达Nemotron:AI性能、成本与精度的新平衡点

Datarobot

在人工智能飞速发展的时代,新的大语言模型(LLM)和基准测试每周都在涌现,这常常让从业者们面临一个根本性问题:这些进步如何转化为实际、现实世界的价值?评估一个新模型的真正质量和实用性,特别是其基准测试能力(如推理)在业务场景中的实际表现,是一个重大挑战。为了解决这个问题,我们最近对新发布的英伟达 Llama Nemotron Super 49B 1.5 模型进行了全面评估。我们的分析利用了 syftr(一个生成式 AI 工作流探索和评估框架),将我们的发现基于一个具体的业务问题,并探讨了多目标分析中固有的关键权衡。在检查了超过一千个不同的工作流后,我们现在可以就该模型擅长的具体用例提供具体指导。

众所周知,LLM 的参数数量会显著影响其运营成本。更大的模型需要更多内存来加载其权重和缓存键值矩阵,这直接影响所需的计算资源。历史上,更大的模型通常提供卓越的性能,前沿 AI 模型几乎无一例外都是庞大的。GPU 技术的根本性进步对于开发和部署这些日益庞大的模型至关重要。然而,仅仅依靠规模已不再是性能峰值的保证。新一代模型正日益展现出超越其大型前辈的能力,即使参数数量相似。英伟达的 Nemotron 模型就是这一趋势的例证。这些模型建立在现有开放架构之上,但关键在于,它们融入了修剪不必要参数和蒸馏新能力等技术。这项创新意味着,一个较小的 Nemotron 模型通常能在多个维度上超越其较大的前辈:实现更快的推理速度、消耗更少的内存,并展现更强的推理能力。我们的目标是量化这些关键权衡,特别是在将 Nemotron 与当前可用的一些最大模型进行比较时。我们将它们加载到我们的集群中,并开始了严格的评估。

为了评估准确性和成本,我们首先确定了一个引人注目的现实世界挑战:模拟一名初级金融分析师,其任务是理解一家新公司。这种场景不仅要求能够回答直接问题,例如“截至 2022 财年,波音公司的毛利率状况是否有所改善?”,还需要提供富有洞察力的解释,例如“如果毛利率不是一个有用的指标,请解释原因。”为了正确回答这两种类型的问题,模型需要从各种财务文件中提取数据(包括年度和季度报告),比较和解释不同时间段的数字,并综合出具有上下文基础的解释。为此,我们使用了 FinanceBench,这是一个专门为此类任务设计的基准测试,将真实的财务文件与专家验证的问题和答案配对,从而作为真实企业工作流的有力代理。

除了简单的提示,我们的评估还需要构建和理解完整的 AI 代理工作流。这是因为有效的模型评估需要在每一步向模型提供正确的上下文,这个过程通常需要为每个新的模型-工作流组合重复进行。我们的 syftr 框架在此处证明了其无价的价值,使我们能够跨不同模型执行数百个工作流,迅速揭示准确性和成本之间固有的权衡。结果通常聚集成所谓的帕累托最优流——即在给定成本下实现最佳准确性,或在给定准确性下实现最低成本的工作流。一方面,使用其他模型作为合成 LLM 的简单管道成本低廉,但准确性较差。另一方面,最准确的流通常依赖于更复杂的“代理”策略,分解问题,进行多次 LLM 调用,并独立分析每个部分,这虽然对推理有效,但显著增加了推理成本。在这个复杂的环境中,Nemotron 始终表现出色,在帕累托前沿保持了自己的地位。

对模型性能的更深入研究涉及按每一步使用的特定 LLM 对工作流进行分组,并绘制它们各自的帕累托前沿。性能差距通常非常明显。大多数模型难以接近 Nemotron 的能力,有些甚至在没有大量上下文工程的情况下都无法生成合理的答案,即便如此,它们的准确性仍然较低,成本更高。然而,当我们引入假设文档嵌入(HyDE)时,情况发生了变化。HyDE 是一种技术,LLM 会生成对查询的假设性答案,然后将其嵌入并用于检索相关文档。在其他模型擅长 HyDE 步骤的流中,有几个模型表现出色,以可承受的成本提供了高精度的结果。这揭示了关键的见解:Nemotron 确实在合成阶段表现出色,无需额外成本即可产生高度准确的答案。通过利用擅长 HyDE 的其他模型,Nemotron 可以专注于高价值的推理。这种“混合流”方法,即每个模型用于其最擅长的任务,被证明是最有效的设置。

归根结底,评估新模型不仅仅是为了追求最高的准确性。真正的成功在于发现质量、成本效益和特定工作流适用性之间的最佳平衡。衡量延迟、效率和总体影响等因素对于确保部署的 AI 系统提供切实的价值至关重要。英伟达 Nemotron 模型的设计充分考虑了这一整体视角,它们不仅是为了原始算力而设计,更是为了实际性能,赋能团队在不产生过高成本的情况下实现重大影响。当与结构化的 syftr 引导评估过程结合时,组织可以获得一种可重复且稳健的方法,以应对新 AI 模型的快速更迭,同时严格控制计算资源和预算。