Google BigQuery 智能升级:AI 代理赋能自动化数据分析

Infoworld

谷歌对其托管式数据仓库服务 BigQuery 推出了一系列重大增强功能,旨在进一步为企业数据从业者自动化复杂的數據分析任务。这些更新基于该超大规模提供商在四月份的年度 Google Cloud Next 活动中首次宣布的数据工程和数据科学代理。

数据工程代理此前主要专注于基本数据准备,现已发展成为一项全面的端到端能力。据 Google Cloud 数据与 AI 产品经理 Yasmeen Ahmad 介绍,该代理现在涵盖了管道构建、数据转换和故障排除。它能够解释自然语言命令,同时理解数据模式、从现有元数据中学习,并识别各种数据资产之间的关系。这使得数据专业人员能够在整个数据管道生命周期中与代理交互,请求执行诸如生成新管道、修改现有管道,甚至通过分析代码和日志来诊断问题并建议修复方案等任务。

同样,数据科学代理最初可通过谷歌免费的基于云的 Jupyter 笔记本服务 Colab 访问,用于自动化特征工程,现在已无缝集成到 BigQuery Notebook 中。这种集成显著增强了代理支持自动化端到端数据科学工作流的能力。它现在可以创建多步骤计划、生成并执行代码、对结果进行推理并呈现发现,从而简化了整个数据科学流程。

一个值得注意的补充是 BigQuery 中引入了自主向量嵌入和生成功能,旨在帮助企业自动准备和索引多模态数据以进行向量搜索。Ahmad 澄清说,“自主”指的是自动化数据工程和 MLOps 中通常复杂且无差异化的“繁重工作”。传统上,数据科学团队需要手动提取数据、设置计算资源、批量处理数据进行 API 调用,然后构建和微调向量索引。这项新功能旨在让这些团队腾出精力,专注于更高价值的活动,例如选择最佳模型并根据特定的业务成果验证其有效性。Ahmad 还认为这些嵌入对于为数据代理构建长期语义记忆至关重要。

HyperFrame Research 的分析师 Stephanie Walter 呼应了 Ahmad 的评估,强调了其变革潜力。她指出,自主向量嵌入将非结构化和多模态的企业数据转换为数值向量,从而实现可扩展的语义搜索、相似性比较、内容推荐和异常检测——所有这些都是开发和加速先进 AI 驱动解决方案的关键能力。Walter 还指出,谷歌的竞争对手,包括微软的 Azure Cognitive Search 和 Synapse、AWS 的 Amazon OpenSearch Serverless、Snowflake 的 Cortex 以及 Databricks 的 Lakehouse AI,也提供了类似的功能。

除了这些代理增强功能之外,Google BigQuery 内部的 AI 查询引擎(允许数据从业者同时分析结构化和非结构化数据)已从早期测试阶段转为面向所有客户的官方公开预览。

最后,谷歌正在显著升级 Looker 中的会话式分析代理。该代理在四月份的会议上推出,旨在让业务用户能够使用自然语言查询其数据,现在已整合了一个新的由 Gemini 驱动的代码解释器。该解释器目前处于预览阶段,它使业务用户能够提出更复杂的、基于场景的“假设”问题,而无需 IT 支持。Ahmad 解释说,该解释器可以生成代码、提供清晰的自然语言解释,并促进交互式可视化图表的创建。它通过代理自身用 Python 编写的高级代码和工作流来处理复杂的自然语言查询。该解释器也正在扩展到会话式分析 API,该 API 将 Looker 的自然语言处理能力集成到更广泛的企业应用程序和工作流中。该 API 最初在 Cloud Next ’25 上以私有预览形式宣布,现已向所有客户和合作伙伴公开提供。