KI befeuert den Kampf um die Vorherrschaft der semantischen Schicht
Die Konvergenz von künstlicher Intelligenz und Business Intelligence legt eine kritische Abhängigkeit offen: die semantische Schicht. Da KI-Modelle zunehmend SQL-Abfragen generieren, um mit Datenbanken zu interagieren, wird ihre Fähigkeit, präzise zu verstehen, welche Daten in einer Tabelle liegen, von größter Bedeutung. Hier setzt die semantische Schicht an, die als wesentliche Karte fungiert, die natürliche Sprachabfragen in genaue Datenabrufe übersetzt, wodurch ihre Kontrolle zu einem aufstrebenden Schlachtfeld in der Tech-Welt wird.
Vor der KI-Revolution waren semantische Schichten hauptsächlich ein Anliegen von Spezialisten, die BI-Tools implementierten und Daten in Data Warehouses modellierten. Organisationen, die Plattformen wie Tableau oder Looker auf analytischen Datenbanken von Oracle oder Teradata einsetzten, nutzten typischerweise die in diesen BI-Produkten eingebetteten semantischen Fähigkeiten. Ihre Funktion war klar: Regeln für Daten zu definieren und durchzusetzen, einschließlich Quellvalidierung, notwendiger Transformationen und Integritätsprüfungen. Ein Finanzvorstand verließ sich beispielsweise auf die semantische Schicht, um zu gewährleisten, dass die Zahlen der „Betriebseinnahmen“ auf einem Dashboard jedes Mal konsistent und korrekt berechnet wurden, was sie zu einem entscheidenden Bestandteil der Analyseinfrastruktur machte.
Die Einführung großer Sprachmodelle, insbesondere seit dem Aufkommen von ChatGPT im Jahr 2022, hat die semantische Schicht von einer Nischen-Datenmodellierungsübung zu einem Eckpfeiler der KI-BI-Landschaft gemacht. Ein KI-Modell ohne diese kontextuelle Karte auf eine Datenbank loszulassen, ist ein Rezept für Fehlinformationen, Frustration und potenzielle geschäftliche Rückschläge. Ohne eine führende semantische Schicht ist praktisch garantiert, dass Sprachmodelle Daten falsch interpretieren, was zu Fehlern führen kann, die erhebliche geschäftliche Auswirkungen haben könnten.
In den letzten Jahren hat die bescheidene semantische Schicht stetig an Bedeutung gewonnen. Anbieter, die unabhängige semantische Schichten entwickelten, wie AtScale und Cube, die standardisieren, wie Analysten mit zugrunde liegenden Datenbanken interagieren, unabhängig vom BI-Tool, haben ihre Entwicklungs- und Marketingbemühungen erheblich verstärkt. Sogar dbt Labs, bekannt für sein beliebtes Datenumwandlungstool, führte 2023 eine eigene semantische Schicht ein.
Nun erheben die Titanen der Branche ihre Ansprüche. Snowflake stellte seine Funktion „semantic views“ auf seinem jüngsten Summit 2025 vor. Databricks zog nach und enthüllte seine „Unity Catalog metric views“ auf seinem AI & Data Summit 2025.
Snowflakes semantische Ansichten werden von seinen Ingenieuren als neues Schema-Level-Objekt beschrieben, das alle semantischen Modellinformationen nativ direkt in der Datenbank speichert. Diese Innovation ersetzt frühere Metadatendateien und etabliert eine standardisierte Metadaten-Definition für eine Vielzahl von Snowflake-Erfahrungen, umfassend KI-gestützte Analysen, BI-Clients und benutzerdefinierte Anwendungen. Derzeit in der Beta-Phase, bietet Snowflake verschiedene Methoden zur Erstellung dieser Ansichten an, darunter eine Benutzeroberfläche, einen Datenbankobjekt-Explorer oder direkte DDL-Anweisungen. Das Unternehmen hat eine Modelldefinitionssprache eingeführt, die es Benutzern ermöglicht, Kernattribute wie physische Modellobjekte (Tabellen oder Ansichten), Beziehungen zwischen ihnen, Dimensionen (geschäftsfreundliche Attribute für Gruppierung und Filterung) und Metriken (geschäftsfreundliche Berechnungen, die KPIs darstellen) zu definieren. Snowflake-Ingenieure betonten, dass semantische Ansichten ein häufiges Kundenanliegen adressieren: den Wunsch nach KI-gestützter konversationeller Analyse ohne die Risiken unkontrollierten Datenzugriffs oder inkonsistenter Ergebnisse.
Databricks verfolgt einen ähnlichen Weg mit seinen Unity Catalog Metrikansichten, aufbauend auf seinem zentralisierten Datenkatalog- und Governance-Angebot. Databricks behauptet, dass das Definieren von Metriken auf der Datenschicht, anstatt nur auf der BI-Schicht, Wiederverwendbarkeit und Integration über alle Workloads hinweg gewährleistet, von Dashboards über KI-Modelle bis hin zu Data-Engineering-Jobs. Diese Metrikansichten, die in YAML definiert und im Unity Catalog registriert sind, sind vollständig über SQL zugänglich und fördern eine konsistente Sicht auf Metriken in einer Organisation, unabhängig vom verwendeten Tool. Databricks hebt hervor, dass Metrikansichten standardmäßig verwaltet und auditierbar sind und zertifizierte Metriken mit integrierter Auditierung und Herkunft für vertrauenswürdige Einblicke bieten. Voraussichtlich diesen Sommer allgemein verfügbar, können diese Ansichten einmal im Unity Catalog erstellt und über verschiedene Databricks-Tools angewendet werden. Zukünftig plant Databricks, die Unterstützung auf externe BI-Tools wie Tableau, Hex, Sigma, ThoughtSpot und Omni sowie auf Observability-Tools wie Anomalo und Monte Carlo auszudehnen.
Die starke Nachfrage nach einer robusten semantischen Schicht ist unbestreitbar, wie die strategischen Schritte von Snowflake und Databricks belegen. Ohne diese entscheidende Metadatenschicht wird das Versprechen der natürlichen Sprachabfrage für Geschäftsdatenbanken wahrscheinlich unerfüllt bleiben.
Die entscheidende Frage ist nun, ob der Impuls für semantische Schichten ausreichen wird, damit sie sich als unabhängige Produktkategorie etablieren, getrennt von den BI-Tools oder Datenplattformen, mit denen sie historisch verbunden waren. Die jüngsten Aktionen von Snowflake und Databricks, die semantische Fähigkeiten tief in ihre Plattformen integrieren, deuten auf eine Präferenz für ökosystemgebundene Lösungen hin. Die Geschichte bietet jedoch einen anderen Präzedenzfall: Weiter oben im Daten-Stack führte die Nachfrage nach einem unabhängigen Tabellenformat zur weit verbreiteten Einführung von Apache Iceberg. Sowohl Snowflake als auch Databricks standardisierten schließlich auf Iceberg, ein Sieg für die Datenunabhängigkeit und ein Rückschlag für die Anbieterbindung.
Die semantische Schicht hat sich ebenfalls als vitaler Bestandteil zur Erreichung von Dateninteroperabilität und zur Sicherstellung der Wiederholbarkeit und Zuverlässigkeit von KI-gestützter BI materialisiert. Das Endergebnis – ob sich die Industriegiganten auf einen universellen, offenen Standard einigen werden, der allen zugutekommt, oder ob sie versuchen werden, semantische Schichten zu einem proprietären Wettbewerbsvorteil zu machen – bleibt abzuwarten.