英伟达NeMo Retriever:简化RAG,赋能文档处理
英伟达,这家在1999年发明GPU并彻底改变计算机图形学,随后凭借CUDA将业务拓展至科学计算和人工智能领域的公司,如今正不断推动企业级AI的边界。基于数十年的创新积累,包括将GPU应用于神经网络和支持大语言模型(LLM),英伟达最新的AI软件套件旨在变革企业与数据交互的方式。
英伟达企业级AI战略的核心是Nvidia NIM、Nvidia NeMo和Nvidia RAG蓝图等产品。这些工具协同作用,使企业能够摄取原始文档,创建高度组织化的向量索引知识库,然后与能够直接从这些内部信息中进行推理的AI进行智能对话。可以预见,整个生态系统都经过优化,旨在充分发挥英伟达GPU的强大性能。
Nvidia NIM提供加速推理微服务,使企业能够在各种环境中高效部署和运行AI模型。虽然NIM的访问通常需要订阅英伟达AI企业套件,每年每块GPU的费用约为4500美元,但某些高端服务器级GPU(如H200)会附赠免费的多年期基础级订阅。与NIM互补的是Nvidia NeMo,这是一个用于开发定制生成式AI的综合平台,涵盖从LLM和视觉语言模型到语音AI的方方面面。NeMo平台中的一个关键组件是NeMo Retriever,它提供专用模型,用于构建强大的数据提取和信息检索管道,能够处理结构化数据(如表格)和非结构化格式(如PDF)。
为了展示这些技术的实际应用,英伟达提供了AI蓝图,这些是说明如何使用Nvidia NIM构建创新解决方案的参考范例。其中之一是Nvidia RAG蓝图,这是一个用于设置检索增强生成(RAG)解决方案的基础指南。RAG是一项关键技术,通过允许LLM访问并整合其原始训练数据中不存在的知识来增强其能力,从而提高准确性并减少生成不相关或错误信息的可能性。Nvidia RAG蓝图旨在处理各种输入格式,从文本和语音到图形和格式化页面。它融合了重新排序等高级功能以优化相关性,光学字符识别(OCR)用于从图像中提取文本,以及精密的防护措施以防范恶意查询和AI“幻觉”。
在RAG蓝图的基础上,Nvidia AI-Q研究助手蓝图进一步提升了能力,专注于深度研究和自动化报告生成。这个高级蓝图整合了独特的“规划-反思-完善”架构,在实际测试中证明了其卓越的有效性。AI-Q研究助手不仅能检索信息;它首先会创建详细的报告计划,然后搜索各种数据源以获取答案,起草报告,并关键性地反思其输出中的任何不足,以启动进一步查询,确保最终报告全面且附带来源列表。值得注意的是,该系统利用Llama模型生成RAG结果、对发现进行推理并撰写最终报告。
在测试过程中,Nvidia AI-Q研究助手蓝图在摄取PDF格式的复杂财务报告并随后响应特定用户查询生成详细报告方面,展现了令人印象深刻的熟练度。特别是基于Llama模型的性能,出人意料地强大。与Llama模型在更简单的RAG设计中表现不佳的单独测试相比,它们在这种复杂的“规划-反思-完善”架构中的有效性显著优越,这突显了这种迭代方法的强大之处。尽管测试环境的初始设置遇到了一些小挑战,包括一个文档错误和一个后端进程故障——据报道英伟达已解决了这些问题——但整体体验突显了该系统的巨大潜力。
英伟达的这套AI套件为寻求创建可信赖的深度研究助手,并能无缝地在本地或云端运行的企业提供了引人注目的解决方案。其迭代完善报告的能力以及用于适应的开源蓝图,使其成为各种AI研究应用的灵活选择。然而,需要注意的是,整个生态系统与英伟达GPU深度集成并为其优化,因此GPU是部署的先决条件。