LEANN:微小ベクトルDBで個人AIを民主化、効率的なANN検索を実現

Marktechpost

埋め込みベースの検索の普及は、システムが情報を理解し取得する方法を革新し、従来のキーワードマッチングを超えて、密なベクトル表現を通じて意味的類似性を捉えるようになりました。近似最近傍(ANN)検索によって強化されたこの進歩は、多数のアプリケーションで優れたパフォーマンスを提供します。しかし、重大な課題が残っています。それは、ANNデータ構造に関連する多大なストレージオーバーヘッドであり、データサイズを1.5倍から7倍に膨らませる可能性があります。大規模なウェブサービスでは管理可能ですが、この負担は個人デバイスや膨大なデータセットを扱う場合には法外なものとなり、効率的なエッジ展開のためにはストレージフットプリントを元のデータの5%未満に削減することが不可欠です。プロダクト量子化(PQ)などの現在のソリューションは、検索精度を損なったり、許容できないレイテンシを導入したりすることがよくあります。

ベクトル検索の分野は、逆ファイルインデックス(IVF)や近接グラフのような技術が支配しており、HNSW、NSG、Vamanaなどのグラフベースのアプローチが、その精度と効率のバランスから先頭を走っています。これらの手法を最適化するための継続的な努力(グラフサイズを削減するための学習済み隣接選択、またはDiskANNやStarlingのようにデータをディスクに保存するソリューションなど)にもかかわらず、課題は残っています。AiSAQやEdgeRAGのようなアプローチはメモリ使用量を最小限に抑えようとしますが、多くの場合、大規模なストレージオーバーヘッドやパフォーマンスの低下に屈します。同様に、埋め込み圧縮技術は、理論的な誤差範囲を提供する一方で、厳格なメモリ制約下で精度を維持するのに苦労しています。

これらの問題を解決するための重要な一歩として、カリフォルニア大学バークレー校、香港中文大学、アマゾンウェブサービス、およびカリフォルニア大学デービス校の研究者たちがLEANNを発表しました。この新しいANN検索インデックスは、リソースが限られた個人デバイスでのストレージ効率のために特別に設計されています。LEANNは、コンパクトなグラフベースの構造と革新的な「オンザフライ」再計算戦略を統合し、ストレージ要件を劇的に最小限に抑えながら、高速かつ正確なデータ検索を可能にします。印象的なことに、LEANNは従来のインデックスと比較して最大50倍小さいストレージフットプリントを実現し、インデックスサイズを元の生データの5%未満に効果的に削減します。この効率はパフォーマンスを損なわず、LEANNは実世界の質問応答ベンチマークで2秒未満で90%のトップ3リコール率を維持します。レイテンシをさらに最適化するために、LEANNは2レベルのトラバーサルアルゴリズムと動的バッチ処理を採用しており、検索ホップ全体で埋め込み計算をインテリジェントに組み合わせ、それによってGPUの利用率を向上させます。

LEANNのアーキテクチャは、堅牢なHNSWフレームワークに基づいて構築されており、特定のクエリが限られたノードのサブセットにのみ埋め込みを必要とするという洞察を活用しています。この認識がオンデマンド計算アプローチの基盤となっており、すべての埋め込みを事前に保存する必要がなくなります。以前の課題を克服するために、LEANNは2つの主要な技術を導入しています。再計算レイテンシを低減するように設計された動的バッチ処理を備えた2レベルのグラフトラバーサルと、メタデータストレージを最小限に抑えるための高次数を維持するグラフ剪定方法です。システムワークフローは、まずすべてのデータセットアイテムの埋め込みを計算し、次に既製のグラフベースのインデックス作成方法を使用してベクトルインデックスを構築することから始まります。

ベンチマークにより、LEANNの優れたパフォーマンスが明らかになりました。特にIVFベースの再計算手法であるEdgeRAGと比較して、LEANNはさまざまなデータセットとハードウェアプラットフォームで21.17倍から驚異的な200.60倍のレイテンシ削減を実現しています。この大きな利点は、LEANNの多項式対数再計算の複雑さに起因しており、EdgeRAGの最適化が不十分な√𝑁成長よりもはるかに効率的にスケーリングします。下流の検索拡張生成(RAG)タスクの精度に関しては、LEANNはほとんどのデータセットで競合他社を一貫して上回っています。ただし、GPQAのような特定のデータセットでは、分布の不一致がその有効性を妨げたため、わずかな制限が観察されました。またHotpotQAでは、データセットの多ホップ推論要件のために、シングルホップ検索設定が潜在的な精度向上を制限しました。これらの微妙な制限にもかかわらず、LEANNは多様なベンチマークで堅牢なパフォーマンスを示しています。

要約すると、LEANNはニューラル検索システムにおける重要な進歩を表しており、グラフベースの再計算と革新的な最適化を組み合わせています。2レベルの検索アルゴリズムと動的バッチ処理を実装することで、完全な埋め込みを保存する必要性を回避し、精度を犠牲にすることなくストレージオーバーヘッドを大幅に削減しています。LEANNは現在、インデックス構築段階で高いピークストレージ使用量という制限に直面していますが(これはプレクラスタリングなどの技術で対処できる可能性があります)、将来の研究ではレイテンシをさらに削減し、応答性を向上させることを目指しており、リソースが限られた次世代の個人AIアプリケーションでの広範な採用への道を開いています。