L'IA alimente la bataille pour la suprématie de la couche sémantique
La convergence de l’intelligence artificielle et de la business intelligence expose une dépendance critique : la couche sémantique. À mesure que les modèles d’IA génèrent de plus en plus de requêtes SQL pour interagir avec les bases de données, leur capacité à comprendre précisément quelles données résident dans une table devient primordiale. C’est là qu’intervient la couche sémantique, agissant comme une carte essentielle qui traduit les requêtes en langage naturel en une récupération de données précise, faisant de son contrôle un champ de bataille en pleine croissance dans le monde de la technologie.
Avant la révolution de l’IA, les couches sémantiques étaient principalement une préoccupation pour les spécialistes qui implémentaient des outils de BI et modélisaient des données dans les entrepôts de données. Les organisations adoptant des plateformes comme Tableau ou Looker au-dessus de bases de données analytiques d’Oracle ou de Teradata utilisaient généralement les capacités sémantiques intégrées à ces produits de BI. Leur fonction était claire : définir et appliquer des règles concernant les données, y compris la validation de la source, les transformations nécessaires et les contrôles d’intégrité. Un directeur financier, par exemple, comptait sur la couche sémantique pour garantir que les chiffres des “revenus d’exploitation” sur un tableau de bord étaient calculés de manière cohérente et correcte à chaque fois, ce qui en faisait un composant crucial de l’infrastructure analytique.
L’avènement des grands modèles linguistiques, particulièrement depuis l’émergence de ChatGPT en 2022, a propulsé la couche sémantique d’un exercice de modélisation de données de niche à une pierre angulaire du paysage de l’IA-BI. Déployer un modèle d’IA sur une base de données sans cette carte contextuelle est une recette pour la désinformation, la frustration et de potentiels revers commerciaux. Sans une couche sémantique directrice, les modèles linguistiques sont presque garantis de mal interpréter les données, ce qui conduit à des erreurs qui pourraient avoir des implications commerciales significatives.
Au cours des deux dernières années, l’humble couche sémantique a constamment gagné en importance. Les fournisseurs qui ont développé des couches sémantiques indépendantes, tels qu’AtScale et Cube, qui standardisent la manière dont les analystes interagissent avec les bases de données sous-jacentes, quel que soit l’outil de BI, ont considérablement intensifié leurs efforts de développement et de marketing. Même dbt Labs, connu pour son outil populaire de transformation de données, a lancé sa propre couche sémantique en 2023.
Maintenant, les titans de l’industrie revendiquent leurs positions. Snowflake a introduit sa fonction de “vues sémantiques” lors de son récent Sommet 2025. Pour ne pas être en reste, Databricks a dévoilé ses “vues de métriques Unity Catalog” lors de son Sommet IA & Données 2025.
Les vues sémantiques de Snowflake sont décrites par ses ingénieurs comme un nouvel objet au niveau du schéma qui stocke nativement toutes les informations du modèle sémantique directement dans la base de données. Cette innovation remplace les fichiers de métadonnées précédents et établit une définition de métadonnées standardisée pour un large éventail d’expériences Snowflake, englobant les analyses basées sur l’IA, les clients BI et les applications personnalisées. Actuellement en version bêta, Snowflake offre diverses méthodes pour créer ces vues, y compris une interface utilisateur, un explorateur d’objets de base de données ou des instructions DDL directes. L’entreprise a adopté un langage de définition de modèle permettant aux utilisateurs de définir des attributs essentiels comme les objets de modèle physique (tables ou vues), les relations entre eux, les dimensions (attributs adaptés aux affaires pour le regroupement et le filtrage) et les métriques (calculs adaptés aux affaires représentant les KPI). Les ingénieurs de Snowflake ont souligné que les vues sémantiques répondent à une préoccupation courante des clients : le désir d’analyses conversationnelles basées sur l’IA sans les risques d’accès aux données non gouvernées ou de résultats incohérents.
Databricks poursuit une voie similaire avec ses vues de métriques Unity Catalog, s’appuyant sur son offre de catalogue de données centralisé et de gouvernance. Databricks affirme que la définition des métriques au niveau de la couche de données, plutôt que uniquement au sein de la couche BI, assure la réutilisabilité et l’intégration à travers toutes les charges de travail, des tableaux de bord aux modèles d’IA et aux tâches d’ingénierie des données. Ces vues de métriques, définies en YAML et enregistrées dans Unity Catalog, sont entièrement accessibles via SQL, favorisant une vue cohérente des métriques au sein d’une organisation, quel que soit l’outil utilisé. Databricks souligne que les vues de métriques sont gouvernées et auditables par défaut, fournissant des métriques certifiées avec un audit et une lignée intégrés pour des informations fiables. Devant atteindre la disponibilité générale cet été, ces vues peuvent être créées une fois dans Unity Catalog et appliquées à travers divers outils Databricks. À l’avenir, Databricks prévoit d’étendre la prise en charge aux outils BI externes comme Tableau, Hex, Sigma, ThoughtSpot et Omni, ainsi qu’aux outils d’observabilité tels qu’Anomalo et Monte Carlo.
La forte demande pour une couche sémantique robuste est indéniable, comme en témoignent les mouvements stratégiques de Snowflake et Databricks. Sans cette couche de métadonnées cruciale, la promesse de la requête en langage naturel pour les bases de données métier restera probablement non tenue.
La question centrale est maintenant de savoir si l’élan pour les couches sémantiques sera suffisant pour qu’elles émergent comme une catégorie de produit indépendante, distincte des outils de BI ou des plateformes de données auxquels elles étaient historiquement liées. Les actions récentes de Snowflake et Databricks, intégrant profondément les capacités sémantiques dans leurs plateformes, suggèrent une préférence pour des solutions liées à l’écosystème. Cependant, l’histoire offre un précédent différent : plus haut dans la pile de données, la demande pour un format de table indépendant a conduit à l’adoption généralisée d’Apache Iceberg. Tant Snowflake que Databricks ont finalement standardisé sur Iceberg, une victoire pour l’indépendance des données et un revers pour le verrouillage du fournisseur.
La couche sémantique s’est également matérialisée comme un composant vital pour atteindre l’interopérabilité des données et garantir la répétabilité et la fiabilité de la BI basée sur l’IA. Le résultat final — si les géants de l’industrie convergeront vers un standard universel et ouvert qui profite à tous, ou s’ils chercheront à faire des couches sémantiques un avantage concurrentiel propriétaire — reste à voir.