AI 驱动语义层霸权之战:数据理解成核心
人工智能与商业智能的融合正在揭示一个关键的依赖:语义层。随着AI模型越来越多地生成SQL查询与数据库交互,它们精准理解表格中数据内容的能力变得至关重要。这时,语义层便发挥作用,它充当一个必不可少的“地图”,将自然语言查询转化为精确的数据检索,使其控制权成为科技界一个新兴的战场。
在AI革命之前,语义层主要是实施BI工具和在数据仓库中建模数据的专家的关注点。采用Tableau或Looker等平台,并基于Oracle或Teradata等分析型数据库的组织,通常会利用这些BI产品中嵌入的语义功能。它们的职能很明确:定义和强制执行数据规则,包括源验证、必要的转换和完整性检查。例如,一位首席财务官就依赖语义层来确保仪表板上的“运营收入”数据每次都以一致且正确的方式计算,使其成为分析基础设施的关键组成部分。
大型语言模型的出现,特别是自2022年ChatGPT问世以来,已将语义层从一个利基的数据建模实践提升为AI-BI领域的基石。在没有这种上下文“地图”的情况下,将AI模型应用于数据库,无疑是造成错误信息、挫败感和潜在业务挫折的根源。没有指导性的语义层,语言模型几乎肯定会误解数据,从而导致可能产生重大业务影响的错误。
在过去几年中,不起眼的语义层已稳步获得重视。开发独立语义层的供应商,如AtScale和Cube(它们旨在标准化分析师与底层数据库的交互方式,无论使用何种BI工具),都显著加大了开发和营销力度。甚至以其流行数据转换工具而闻名的dbt Labs,也在2023年推出了自己的语义层。
现在,行业巨头们正在提出自己的主张。Snowflake在其最近的2025年峰会上推出了“语义视图”(semantic views)功能。Databricks也不甘示弱,在其2025年AI与数据峰会上发布了“Unity Catalog指标视图”(Unity Catalog metric views)。
Snowflake的工程师将其语义视图描述为一种新的模式级别对象,它能将所有语义模型信息原生存储在数据库中。这项创新取代了以前的元数据文件,为广泛的Snowflake体验建立了标准化的元数据定义,包括AI驱动的分析、BI客户端和自定义应用程序。目前处于测试阶段,Snowflake提供了多种创建这些视图的方法,包括用户界面、数据库对象浏览器或直接的DDL语句。该公司采用了一种模型定义语言,允许用户定义核心属性,如物理模型对象(表或视图)、它们之间的关系、维度(用于分组和过滤的业务友好属性)和指标(代表KPI的业务友好计算)。Snowflake工程师强调,语义视图解决了客户的一个普遍担忧:在没有非受控数据访问或结果不一致风险的情况下,实现AI驱动的对话式分析。
Databricks正在通过其Unity Catalog指标视图走类似的道路,这建立在其中心化数据目录和治理产品之上。Databricks声称,在数据层而非仅仅在BI层定义指标,可确保从仪表板到AI模型和数据工程任务等所有工作负载的可重用性和集成性。这些指标视图以YAML定义并注册在Unity Catalog中,可通过SQL完全访问,从而无论使用何种工具,都能在整个组织内推广一致的指标视图。Databricks强调,指标视图默认是受治理和可审计的,提供带有内置审计和血缘的认证指标,以实现可信赖的洞察。预计今年夏天将普遍可用,这些视图可以在Unity Catalog中创建一次,并应用于各种Databricks工具。未来,Databricks计划将支持扩展到Tableau、Hex、Sigma、ThoughtSpot和Omni等外部BI工具,以及Anomalo和Monte Carlo等可观测性工具。
对强大语义层的强烈需求是不可否认的,Snowflake和Databricks的战略举措证明了这一点。没有这个关键的元数据层,商业数据库的自然语言查询承诺很可能无法实现。
现在,关键问题是语义层的发展势头是否足以使其成为一个独立的产品类别,脱离它们历史上所依赖的BI工具或数据平台。Snowflake和Databricks最近的行动,将语义能力深度集成到其平台中,表明它们倾向于生态系统内解决方案。然而,历史提供了不同的先例:在数据堆栈的更上层,对独立表格式的需求导致了Apache Iceberg的广泛采用。Snowflake和Databricks最终都标准化了Iceberg,这是数据独立性的一次胜利,也是对供应商锁定的一个挫折。
语义层同样已成为实现数据互操作性以及确保AI驱动BI可重复性和可靠性的重要组成部分。最终结果——行业巨头是会趋向于一个惠及所有人的通用开放标准,还是会寻求将语义层打造为专有竞争优势——仍有待观察。