英伟达Nemotron：AI性能、成本与精度的新平衡点

在人工智能飞速发展的时代，新的大语言模型（LLM）和基准测试每周都在涌现，这常常让从业者们面临一个根本性问题：这些进步如何转化为实际、现实世界的价值？评估一个新模型的真正质量和实用性，特别是其基准测试能力（如推理）在业务场景中的实际表现，是一个重大挑战。为了解决这个问题，我们最近对新发布的英伟达 Llama Nemotron Super 49B 1.5 模型进行了全面评估。我们的分析利用了 syftr（一个生成式 AI 工作流探索和评估框架），将我们的发现基于一个具体的业务问题，并探讨了多目标分析中固有的关键权衡。在检查了超过一千个不同的工作流后，我们现在可以就该模型擅长的具体用例提供具体指导。

众所周知，LLM 的参数数量会显著影响其运营成本。更大的模型需要更多内存来加载其权重和缓存键值矩阵，这直接影响所需的计算资源。历史上，更大的模型通常提供卓越的性能，前沿 AI 模型几乎无一例外都是庞大的。GPU 技术的根本性进步对于开发和部署这些日益庞大的模型至关重要。然而，仅仅依靠规模已不再是性能峰值的保证。新一代模型正日益展现出超越其大型前辈的能力，即使参数数量相似。英伟达的 Nemotron 模型就是这一趋势的例证。这些模型建立在现有开放架构之上，但关键在于，它们融入了修剪不必要参数和蒸馏新能力等技术。这项创新意味着，一个较小的 Nemotron 模型通常能在多个维度上超越其较大的前辈：实现更快的推理速度、消耗更少的内存，并展现更强的推理能力。我们的目标是量化这些关键权衡，特别是在将 Nemotron 与当前可用的一些最大模型进行比较时。我们将它们加载到我们的集群中，并开始了严格的评估。

为了评估准确性和成本，我们首先确定了一个引人注目的现实世界挑战：模拟一名初级金融分析师，其任务是理解一家新公司。这种场景不仅要求能够回答直接问题，例如“截至 2022 财年，波音公司的毛利率状况是否有所改善？”，还需要提供富有洞察力的解释，例如“如果毛利率不是一个有用的指标，请解释原因。”为了正确回答这两种类型的问题，模型需要从各种财务文件中提取数据（包括年度和季度报告），比较和解释不同时间段的数字，并综合出具有上下文基础的解释。为此，我们使用了 FinanceBench，这是一个专门为此类任务设计的基准测试，将真实的财务文件与专家验证的问题和答案配对，从而作为真实企业工作流的有力代理。

除了简单的提示，我们的评估还需要构建和理解完整的 AI 代理工作流。这是因为有效的模型评估需要在每一步向模型提供正确的上下文，这个过程通常需要为每个新的模型-工作流组合重复进行。我们的 syftr 框架在此处证明了其无价的价值，使我们能够跨不同模型执行数百个工作流，迅速揭示准确性和成本之间固有的权衡。结果通常聚集成所谓的帕累托最优流——即在给定成本下实现最佳准确性，或在给定准确性下实现最低成本的工作流。一方面，使用其他模型作为合成 LLM 的简单管道成本低廉，但准确性较差。另一方面，最准确的流通常依赖于更复杂的“代理”策略，分解问题，进行多次 LLM 调用，并独立分析每个部分，这虽然对推理有效，但显著增加了推理成本。在这个复杂的环境中，Nemotron 始终表现出色，在帕累托前沿保持了自己的地位。

对模型性能的更深入研究涉及按每一步使用的特定 LLM 对工作流进行分组，并绘制它们各自的帕累托前沿。性能差距通常非常明显。大多数模型难以接近 Nemotron 的能力，有些甚至在没有大量上下文工程的情况下都无法生成合理的答案，即便如此，它们的准确性仍然较低，成本更高。然而，当我们引入假设文档嵌入（HyDE）时，情况发生了变化。HyDE 是一种技术，LLM 会生成对查询的假设性答案，然后将其嵌入并用于检索相关文档。在其他模型擅长 HyDE 步骤的流中，有几个模型表现出色，以可承受的成本提供了高精度的结果。这揭示了关键的见解：Nemotron 确实在合成阶段表现出色，无需额外成本即可产生高度准确的答案。通过利用擅长 HyDE 的其他模型，Nemotron 可以专注于高价值的推理。这种“混合流”方法，即每个模型用于其最擅长的任务，被证明是最有效的设置。

归根结底，评估新模型不仅仅是为了追求最高的准确性。真正的成功在于发现质量、成本效益和特定工作流适用性之间的最佳平衡。衡量延迟、效率和总体影响等因素对于确保部署的 AI 系统提供切实的价值至关重要。英伟达 Nemotron 模型的设计充分考虑了这一整体视角，它们不仅是为了原始算力而设计，更是为了实际性能，赋能团队在不产生过高成本的情况下实现重大影响。当与结构化的 syftr 引导评估过程结合时，组织可以获得一种可重复且稳健的方法，以应对新 AI 模型的快速更迭，同时严格控制计算资源和预算。

英伟达Nemotron：AI性能、成本与精度的新平衡点

相关文章

华为芯片问题致DeepSeek R2大模型延期，被迫转向英伟达

DeepSeek R2 延期：华为芯片问题迫使其转用英伟达

英伟达Nemotron Nano 2：速度提升6倍，支持128K上下文的LLM发布