Le RAG est mort : l'ingénierie du contexte règne dans les systèmes d'IA

Latent

Le paysage de l’intelligence artificielle, en évolution rapide, est le théâtre d’un changement de paradigme significatif, comme l’a annoncé Jeff Huber, PDG de Chroma, dans une récente interview de Latent.Space intitulée “Le RAG est mort, l’ingénierie du contexte est reine”. Cette déclaration audacieuse signale un passage au-delà de la simple génération augmentée par récupération (RAG) vers une approche plus sophistiquée de la gestion des informations qui alimentent les systèmes d’IA. La discussion met en lumière ce qui compte vraiment dans les bases de données vectorielles en 2025, les exigences uniques de la recherche moderne en IA, et les stratégies pour construire des systèmes résilients qui s’adaptent à mesure que leur compréhension contextuelle s’accroît.

Pour un public général, la Génération Augmentée par Récupération (RAG) est apparue comme une technique cruciale pour améliorer les grands modèles de langage (LLM). Les LLM traditionnels, entraînés sur de vastes ensembles de données statiques, ont souvent du mal à fournir des informations à jour, spécifiques à un domaine ou précises, allant parfois jusqu’à “halluciner” des faits. Le RAG a résolu ce problème en permettant aux LLM de récupérer d’abord des informations pertinentes à partir de bases de connaissances externes – comme des documents, des bases de données ou le web – puis d’utiliser ces nouvelles données pour augmenter leurs réponses. Ce processus visait à réduire les inexactitudes et le besoin de réentraînement constant du modèle, permettant aux LLM de citer des sources et de fournir des réponses plus fondées.

Cependant, à mesure que les applications d’IA mûrissent, passant de simples chatbots à des agents complexes et multi-tours, les limites du RAG sont devenues apparentes. Bien que le RAG ait amélioré la précision, il n’était pas une solution miracle contre les hallucinations, car les LLM pouvaient toujours mal interpréter ou combiner les informations récupérées de manière trompeuse. De plus, les systèmes RAG ont rencontré des défis pour distinguer des différences subtiles dans de grands ensembles de données, gérer des significations ambiguës, et surtout, fonctionner dans les limites fixes de la “fenêtre de contexte” des LLM. Jeff Huber note que le simple fait de surcharger la fenêtre de contexte d’un LLM avec plus de données peut en fait dégrader ses capacités de raisonnement et sa capacité à trouver des informations pertinentes, un phénomène que la recherche de Chroma appelle la “pourriture contextuelle”.

C’est là que l’“Ingénierie du Contexte” prend le devant de la scène. Contrairement à l’“ingénierie des prompts”, qui se concentre sur l’élaboration de l’instruction singulière parfaite pour un modèle d’IA, l’ingénierie du contexte est la discipline systématique de la conception et de la gestion de toutes les informations qu’un modèle d’IA voit avant de générer une réponse. Elle englobe l’assemblage des instructions système, de l’historique des conversations, des préférences utilisateur, des documents externes récupérés dynamiquement, et même des outils disponibles. Huber affirme que le succès ou l’échec des agents d’IA avancés d’aujourd’hui dépend de plus en plus de la qualité de leur contexte, faisant de la plupart des échecs d’agents des “échecs contextuels” plutôt que des lacunes inhérentes au modèle. L’objectif de l’ingénierie du contexte est précis : trouver, supprimer et optimiser les informations pertinentes pour le LLM, en s’assurant qu’il reçoit exactement ce dont il a besoin, quand il en a besoin. Cela implique un processus en deux étapes : la “Collecte” (maximiser le rappel en ratissant large pour toutes les informations pertinentes possibles) et le “Glanage” (maximiser la précision en re-classant et en supprimant les données non pertinentes).

Au cœur de la recherche moderne en IA et de l’ingénierie du contexte se trouvent les bases de données vectorielles. Ces bases de données spécialisées stockent et indexent les représentations numériques, ou “embeddings”, de données non structurées comme le texte, les images et l’audio. Contrairement aux bases de données traditionnelles qui reposent sur des correspondances exactes, les bases de données vectorielles permettent des “recherches par similarité” très efficaces, permettant aux systèmes d’IA de comprendre le sens et le contexte. Chroma, cofondée par Jeff Huber, est une base de données vectorielle open source de premier plan, conçue spécifiquement pour les applications d’IA. Huber souligne l’engagement de Chroma à simplifier l’expérience des développeurs et à fournir des solutions évolutives et distribuées nativement qui surmontent l’“enfer opérationnel” souvent associé à la mise à l’échelle de bases de données vectorielles à nœud unique.

Le passage de “Le RAG est mort” à “L’ingénierie du contexte est reine” signifie une maturation dans le développement de l’IA. Il reconnaît que la simple récupération de données ne suffit pas ; l’intelligence réside dans la manière dont ces données sont organisées, structurées et présentées à l’IA. La recherche moderne pour l’IA ne consiste plus seulement à trouver des mots-clés, mais à comprendre l’intention et le contexte nuancés, une capacité alimentée par l’interaction sophistiquée des bases de données vectorielles et des principes de l’ingénierie du contexte. À mesure que les systèmes d’IA deviennent plus intégrés aux flux de travail complexes, la capacité à livrer des systèmes qui ne se “pourrissent” pas à mesure que le contexte s’accroît — en respectant les limites de la fenêtre de contexte, en employant la récupération hybride et un re-classement rigoureux — définira la prochaine génération d’IA robuste et fiable.