LEANN：微型向量数据库，以高效ANN搜索赋能个人AI普及

基于嵌入的搜索技术的普及彻底改变了系统理解和检索信息的方式，超越了传统的关键词匹配，通过密集的向量表示捕捉语义相似性。这项由近似最近邻（ANN）搜索驱动的进步，在众多应用中提供了卓越的性能。然而，一个显著的障碍依然存在：与ANN数据结构相关的巨大存储开销，这可能使数据大小膨胀1.5到7倍。虽然对于大规模网络服务来说尚可管理，但对于个人设备或处理海量数据集时，这种负担变得难以承受，因为将存储占用空间减少到原始数据5%以下对于高效边缘部署至关重要。目前诸如乘积量化（PQ）等解决方案，往往会牺牲搜索精度或引入不可接受的延迟。

向量搜索领域主要由倒排文件索引（IVF）和邻近图等技术主导，其中HNSW、NSG和Vamana等基于图的方法因其在精度和效率之间的平衡而处于领先地位。尽管在优化这些方法方面持续努力——包括通过学习邻居选择来减小图大小，或像DiskANN和Starling那样将数据存储在磁盘上的解决方案——挑战依然存在。AiSAQ和EdgeRAG等方法试图最小化内存使用，但往往在大规模应用中屈服于高存储开销或性能下降。类似地，嵌入压缩技术虽然提供了理论误差界限，但在严格的内存限制下难以保持精度。

在解决这些问题方面迈出了重要一步的是，来自加州大学伯克利分校、香港中文大学、亚马逊网络服务和加州大学戴维斯分校的研究人员共同推出了LEANN。这种新颖的ANN搜索索引专为资源有限的个人设备上的存储效率而设计。LEANN将紧凑的基于图的结构与创新的“即时”重新计算策略相结合，从而在大幅减少存储需求的同时实现快速准确的数据检索。令人印象深刻的是，与传统索引相比，LEANN实现了高达50倍的存储占用空间缩减，有效地将索引大小减少到原始原始数据不到5%。这种效率并不影响性能，因为LEANN在真实世界的问答基准测试中，能在两秒内保持90%的前3召回率。为了进一步优化延迟，LEANN采用了两级遍历算法和动态批处理，智能地将跨搜索跳的嵌入计算结合起来，从而提高GPU利用率。

LEANN的架构建立在强大的HNSW框架之上，它利用的洞察是任何给定查询仅需要有限节点子集的嵌入。这一认识是其按需计算方法的基础，从而无需预先存储所有嵌入。为了克服以前的挑战，LEANN引入了两项关键技术：一个带有动态批处理的两级图遍历，旨在降低重新计算延迟；以及一个高维保持图修剪方法，以最小化元数据存储。系统工作流程首先计算所有数据集项目的嵌入，然后使用现成的基于图的索引方法构建向量索引。

基准测试显示了LEANN的卓越性能，特别是与基于IVF的重新计算方法EdgeRAG相比。LEANN在各种数据集和硬件平台上实现了21.17到惊人的200.60倍的延迟降低。这一显著优势源于LEANN的对数多项式重新计算复杂度，其扩展效率远高于EdgeRAG优化较差的√𝑁增长。在下游检索增强生成（RAG）任务的准确性方面，LEANN在大多数数据集上始终优于竞争对手。然而，在GPQA等特定数据集上观察到了一些小缺陷，其中分布不匹配阻碍了其有效性；而在HotpotQA上，由于数据集的多跳推理要求，单跳检索设置限制了潜在的准确性增益。尽管存在这些细微的局限性，LEANN在各种基准测试中表现出强大的性能。

总而言之，LEANN代表了神经检索系统的一个重大进步，它将基于图的重新计算与创新优化相结合。通过实施两级搜索算法和动态批处理，它避免了存储完整嵌入的需要，在不牺牲准确性的情况下显著减少了存储开销。虽然LEANN目前在索引构建阶段面临高峰存储使用量的限制——这个问题可能通过预聚类等技术解决——未来的研究旨在进一步降低延迟并增强响应能力，为它在新一代资源受限的个人AI应用中的广泛采用铺平道路。

LEANN：微型向量数据库，以高效ANN搜索赋能个人AI普及

相关文章

联邦特工滥用警员密码：Flock ALPR系统用于非法移民监控

Resea AI 推出下一代AI学术助手，助力研究流程化繁为简

突破！AI雷达3米外“偷听”电话，隐私边界何在？