LEANN : La micro-base de données vectorielle qui démocratise l'IA personnelle
La prolifération de la recherche basée sur l’intégration a révolutionné la façon dont les systèmes comprennent et récupèrent l’information, allant au-delà de la correspondance de mots-clés traditionnelle pour capturer la similarité sémantique grâce à des représentations vectorielles denses. Cette avancée, alimentée par la recherche de voisins les plus proches approximatifs (ANN), offre des performances supérieures dans de nombreuses applications. Cependant, un obstacle significatif persiste : la surcharge de stockage substantielle associée aux structures de données ANN, qui peut gonfler la taille des données de 1,5 à 7 fois. Bien que gérable pour les services web à grande échelle, ce fardeau devient prohibitif pour les appareils personnels ou lors du traitement de vastes ensembles de données, où la réduction de l’empreinte de stockage à moins de 5 % des données originales est cruciale pour un déploiement efficace en périphérie. Les solutions actuelles, telles que la quantification de produit (PQ), compromettent souvent la précision de la recherche ou introduisent une latence inacceptable.
Le paysage de la recherche vectorielle est dominé par des techniques comme l’Index de Fichier Inversé (IVF) et les graphes de proximité, avec des approches basées sur des graphes telles que HNSW, NSG et Vamana en tête pour leur équilibre entre précision et efficacité. Malgré les efforts continus pour optimiser ces méthodes — y compris la sélection de voisins appris pour réduire la taille du graphe, ou des solutions comme DiskANN et Starling qui stockent les données sur disque — des défis subsistent. Des approches comme AiSAQ et EdgeRAG tentent de minimiser l’utilisation de la mémoire mais succombent souvent à une surcharge de stockage élevée ou à une dégradation des performances à l’échelle. De même, les techniques de compression d’embeddings, bien qu’offrant des bornes d’erreur théoriques, peinent à maintenir la précision sous des contraintes de mémoire strictes.
Dans une avancée significative pour résoudre ces problèmes, des chercheurs de l’UC Berkeley, de la CUHK, d’Amazon Web Services et de l’UC Davis ont introduit LEANN. Ce nouvel index de recherche ANN est spécifiquement conçu pour l’efficacité du stockage sur les appareils personnels à ressources limitées. LEANN intègre une structure compacte basée sur des graphes avec une stratégie innovante de recalcul « à la volée », permettant une récupération de données rapide et précise tout en minimisant drastiquement les exigences de stockage. De manière impressionnante, LEANN atteint des empreintes de stockage jusqu’à 50 fois plus petites par rapport aux index conventionnels, réduisant efficacement la taille de l’index à moins de 5 % des données brutes originales. Cette efficacité ne compromet pas les performances, car LEANN maintient un taux de rappel top-3 de 90 % en moins de deux secondes sur des benchmarks de questions-réponses réels. Pour optimiser davantage la latence, LEANN emploie un algorithme de traversée à deux niveaux et un traitement par lots dynamique, qui combine intelligemment les calculs d’embeddings à travers les sauts de recherche, améliorant ainsi l’utilisation du GPU.
L’architecture de LEANN est construite sur le robuste cadre HNSW, tirant parti de l’idée que toute requête donnée ne nécessite des embeddings que pour un sous-ensemble limité de nœuds. Cette réalisation sous-tend son approche de calcul à la demande, éliminant le besoin de pré-stocker tous les embeddings. Pour surmonter les défis précédents, LEANN introduit deux techniques clés : une traversée de graphe à deux niveaux avec traitement par lots dynamique, conçue pour réduire la latence de recalcul, et une méthode d’élagage de graphe préservant un degré élevé pour minimiser le stockage des métadonnées. Le flux de travail du système commence par le calcul des embeddings pour tous les éléments de l’ensemble de données, suivi de la construction d’un index vectoriel en utilisant une méthode d’indexation basée sur des graphes prête à l’emploi.
Les tests comparatifs révèlent les performances supérieures de LEANN, en particulier par rapport à EdgeRAG, une méthode de recalcul basée sur IVF. LEANN offre des réductions de latence allant de 21,17 à un étonnant 200,60 fois sur divers ensembles de données et plateformes matérielles. Cet avantage substantiel découle de la complexité de recalcul polylogarithmique de LEANN, qui s’adapte beaucoup plus efficacement que la croissance √𝑁 moins optimisée d’EdgeRAG. En termes de précision pour les tâches de génération augmentée par récupération (RAG) en aval, LEANN surpasse constamment ses concurrents sur la plupart des ensembles de données. Cependant, des limitations mineures ont été observées sur des ensembles de données spécifiques comme GPQA, où un décalage de distribution a entravé son efficacité, et HotpotQA, où la configuration de récupération à un seul saut a limité les gains de précision potentiels en raison des exigences de raisonnement multi-sauts de l’ensemble de données. Malgré ces limitations nuancées, LEANN démontre des performances robustes sur une gamme diverse de benchmarks.
En résumé, LEANN représente une avancée significative dans les systèmes de récupération neuronale, combinant le recalcul basé sur des graphes avec des optimisations innovantes. En mettant en œuvre un algorithme de recherche à deux niveaux et un traitement par lots dynamique, il évite la nécessité de stocker des embeddings complets, réalisant des réductions remarquables de la surcharge de stockage sans sacrifier la précision. Bien que LEANN soit actuellement confronté à une limitation en termes d’utilisation élevée du stockage de pointe pendant sa phase de construction d’index — un problème potentiellement résoluble par des techniques comme le pré-clustering — la recherche future vise à réduire davantage la latence et à améliorer la réactivité, ouvrant la voie à son adoption généralisée dans une nouvelle génération d’applications d’IA personnelle contraintes par les ressources.