La IA impulsa la batalla por la supremacía de la capa semántica

Datanami

La convergencia de la inteligencia artificial y la inteligencia de negocios está exponiendo una dependencia crítica: la capa semántica. A medida que los modelos de IA generan cada vez más consultas SQL para interactuar con las bases de datos, su capacidad para comprender con precisión qué datos residen dentro de una tabla se vuelve primordial. Aquí es donde interviene la capa semántica, actuando como un mapa esencial que traduce las consultas en lenguaje natural en una recuperación precisa de datos, haciendo de su control un campo de batalla en crecimiento en el mundo tecnológico.

Antes de la revolución de la IA, las capas semánticas eran principalmente una preocupación para los especialistas que implementaban herramientas de BI y modelaban datos dentro de los almacenes de datos. Las organizaciones que adoptaban plataformas como Tableau o Looker sobre bases de datos analíticas de Oracle o Teradata solían aprovechar las capacidades semánticas integradas en esos productos de BI. Su función era clara: definir y aplicar reglas sobre los datos, incluyendo la validación de la fuente, las transformaciones necesarias y las comprobaciones de integridad. Un Director Financiero, por ejemplo, dependía de la capa semántica para garantizar que las cifras de “ingresos operativos” en un panel se calcularan de manera consistente y correcta cada vez, convirtiéndola en un componente crucial de la infraestructura analítica.

La llegada de los grandes modelos de lenguaje, particularmente desde la aparición de ChatGPT en 2022, ha impulsado la capa semántica de un ejercicio de modelado de datos de nicho a una piedra angular del panorama de la IA-BI. Liberar un modelo de IA en una base de datos sin este mapa contextual es una receta para la desinformación, la frustración y posibles contratiempos comerciales. Sin una capa semántica guía, los modelos de lenguaje tienen casi garantizado que malinterpretarán los datos, lo que llevará a errores que podrían tener importantes implicaciones comerciales.

Durante los últimos dos años, la humilde capa semántica ha ido ganando protagonismo de forma constante. Los proveedores que desarrollaron capas semánticas independientes, como AtScale y Cube, que estandarizan la forma en que los analistas interactúan con las bases de datos subyacentes, independientemente de la herramienta de BI, han intensificado significativamente sus esfuerzos de desarrollo y marketing. Incluso dbt Labs, conocido por su popular herramienta de transformación de datos, lanzó su propia capa semántica en 2023.

Ahora, los titanes de la industria están haciendo valer sus derechos. Snowflake introdujo su función de “vistas semánticas” en su reciente Summit 2025. Para no quedarse atrás, Databricks presentó sus “vistas de métricas de Unity Catalog” en su AI & Data Summit 2025.

Las vistas semánticas de Snowflake son descritas por sus ingenieros como un nuevo objeto a nivel de esquema que almacena de forma nativa toda la información del modelo semántico directamente dentro de la base de datos. Esta innovación reemplaza los archivos de metadatos anteriores y establece una definición de metadatos estandarizada para una amplia gama de experiencias de Snowflake, abarcando análisis impulsados por IA, clientes de BI y aplicaciones personalizadas. Actualmente en beta, Snowflake ofrece varios métodos para crear estas vistas, incluyendo una interfaz de usuario, un explorador de objetos de base de datos o sentencias DDL directas. La compañía ha adoptado un lenguaje de definición de modelos que permite a los usuarios definir atributos centrales como objetos de modelo físico (tablas o vistas), relaciones entre ellos, dimensiones (atributos amigables para el negocio para agrupar y filtrar) y métricas (cálculos amigables para el negocio que representan KPIs). Los ingenieros de Snowflake enfatizaron que las vistas semánticas abordan una preocupación común de los clientes: el deseo de análisis conversacionales impulsados por IA sin los riesgos de acceso a datos no gobernados o resultados inconsistentes.

Databricks está siguiendo un camino similar con sus vistas de métricas de Unity Catalog, basándose en su catálogo de datos centralizado y su oferta de gobernanza. Databricks afirma que definir las métricas en la capa de datos, en lugar de únicamente en la capa de BI, garantiza la reutilización y la integración en todas las cargas de trabajo, desde paneles hasta modelos de IA y trabajos de ingeniería de datos. Estas vistas de métricas, definidas en YAML y registradas en Unity Catalog, son totalmente accesibles a través de SQL, promoviendo una vista consistente de las métricas en toda una organización, independientemente de la herramienta utilizada. Databricks destaca que las vistas de métricas son gobernadas y auditables por defecto, proporcionando métricas certificadas con auditoría y linaje incorporados para obtener información confiable. Se espera que alcancen la disponibilidad general este verano, estas vistas se pueden crear una vez en Unity Catalog y aplicarse en varias herramientas de Databricks. En el futuro, Databricks planea extender el soporte a herramientas de BI externas como Tableau, Hex, Sigma, ThoughtSpot y Omni, así como a herramientas de observabilidad como Anomalo y Monte Carlo.

La fuerte demanda de una capa semántica robusta es innegable, como lo demuestran los movimientos estratégicos de Snowflake y Databricks. Sin esta capa de metadatos crucial, la promesa de la consulta en lenguaje natural para las bases de datos empresariales probablemente seguirá sin cumplirse.

La pregunta fundamental ahora es si el impulso de las capas semánticas será suficiente para que emerjan como una categoría de producto independiente, separada de las herramientas de BI o plataformas de datos a las que históricamente estuvieron vinculadas. Las acciones recientes de Snowflake y Databricks, que integran profundamente las capacidades semánticas en sus plataformas, sugieren una preferencia por soluciones ligadas al ecosistema. Sin embargo, la historia ofrece un precedente diferente: más arriba en la pila de datos, la demanda de un formato de tabla independiente llevó a la adopción generalizada de Apache Iceberg. Tanto Snowflake como Databricks finalmente se estandarizaron en Iceberg, una victoria para la independencia de los datos y un revés para el bloqueo del proveedor.

La capa semántica se ha materializado de manera similar como un componente vital para lograr la interoperabilidad de los datos y garantizar la repetibilidad y confiabilidad de la BI impulsada por IA. El resultado final —si los gigantes de la industria convergerán en un estándar universal y abierto que beneficie a todos, o si buscarán hacer de las capas semánticas una ventaja competitiva propietaria— aún está por verse.