LEANN:微型向量数据库,以高效ANN搜索赋能个人AI普及

Marktechpost

基于嵌入的搜索技术的普及彻底改变了系统理解和检索信息的方式,超越了传统的关键词匹配,通过密集的向量表示捕捉语义相似性。这项由近似最近邻(ANN)搜索驱动的进步,在众多应用中提供了卓越的性能。然而,一个显著的障碍依然存在:与ANN数据结构相关的巨大存储开销,这可能使数据大小膨胀1.5到7倍。虽然对于大规模网络服务来说尚可管理,但对于个人设备或处理海量数据集时,这种负担变得难以承受,因为将存储占用空间减少到原始数据5%以下对于高效边缘部署至关重要。目前诸如乘积量化(PQ)等解决方案,往往会牺牲搜索精度或引入不可接受的延迟。

向量搜索领域主要由倒排文件索引(IVF)和邻近图等技术主导,其中HNSW、NSG和Vamana等基于图的方法因其在精度和效率之间的平衡而处于领先地位。尽管在优化这些方法方面持续努力——包括通过学习邻居选择来减小图大小,或像DiskANN和Starling那样将数据存储在磁盘上的解决方案——挑战依然存在。AiSAQ和EdgeRAG等方法试图最小化内存使用,但往往在大规模应用中屈服于高存储开销或性能下降。类似地,嵌入压缩技术虽然提供了理论误差界限,但在严格的内存限制下难以保持精度。

在解决这些问题方面迈出了重要一步的是,来自加州大学伯克利分校、香港中文大学、亚马逊网络服务和加州大学戴维斯分校的研究人员共同推出了LEANN。这种新颖的ANN搜索索引专为资源有限的个人设备上的存储效率而设计。LEANN将紧凑的基于图的结构与创新的“即时”重新计算策略相结合,从而在大幅减少存储需求的同时实现快速准确的数据检索。令人印象深刻的是,与传统索引相比,LEANN实现了高达50倍的存储占用空间缩减,有效地将索引大小减少到原始原始数据不到5%。这种效率并不影响性能,因为LEANN在真实世界的问答基准测试中,能在两秒内保持90%的前3召回率。为了进一步优化延迟,LEANN采用了两级遍历算法和动态批处理,智能地将跨搜索跳的嵌入计算结合起来,从而提高GPU利用率。

LEANN的架构建立在强大的HNSW框架之上,它利用的洞察是任何给定查询仅需要有限节点子集的嵌入。这一认识是其按需计算方法的基础,从而无需预先存储所有嵌入。为了克服以前的挑战,LEANN引入了两项关键技术:一个带有动态批处理的两级图遍历,旨在降低重新计算延迟;以及一个高维保持图修剪方法,以最小化元数据存储。系统工作流程首先计算所有数据集项目的嵌入,然后使用现成的基于图的索引方法构建向量索引。

基准测试显示了LEANN的卓越性能,特别是与基于IVF的重新计算方法EdgeRAG相比。LEANN在各种数据集和硬件平台上实现了21.17到惊人的200.60倍的延迟降低。这一显著优势源于LEANN的对数多项式重新计算复杂度,其扩展效率远高于EdgeRAG优化较差的√𝑁增长。在下游检索增强生成(RAG)任务的准确性方面,LEANN在大多数数据集上始终优于竞争对手。然而,在GPQA等特定数据集上观察到了一些小缺陷,其中分布不匹配阻碍了其有效性;而在HotpotQA上,由于数据集的多跳推理要求,单跳检索设置限制了潜在的准确性增益。尽管存在这些细微的局限性,LEANN在各种基准测试中表现出强大的性能。

总而言之,LEANN代表了神经检索系统的一个重大进步,它将基于图的重新计算与创新优化相结合。通过实施两级搜索算法和动态批处理,它避免了存储完整嵌入的需要,在不牺牲准确性的情况下显著减少了存储开销。虽然LEANN目前在索引构建阶段面临高峰存储使用量的限制——这个问题可能通过预聚类等技术解决——未来的研究旨在进一步降低延迟并增强响应能力,为它在新一代资源受限的个人AI应用中的广泛采用铺平道路。