AI可观测性:将TB级数据转化为可操作洞察

Venturebeat

维护和开发现代电子商务平台(每分钟处理数百万笔交易)面临着一个重大挑战:管理生成的大量遥测数据。这些数据包括跨众多微服务的指标、日志和追踪。当发生严重事故时,值班工程师常常面临一项艰巨的任务,即在海量信息中大海捞针,以发现相关的信号和洞察。这常常使可观测性——即通过外部输出来理解系统内部状态的能力——成为挫败感的来源,而非清晰的指引。

为了缓解这一主要痛点,人们探索了一种利用模型上下文协议(MCP)的解决方案,以添加上下文并从日志和分布式追踪中得出推论。这种方法是开发AI驱动的可观测性平台的基础,旨在改变组织衡量和理解系统行为的方式,这是可靠性、性能和用户信任的基石。正如那句格言所说:“你无法衡量的东西,就无法改进。”

在当今的云原生、基于微服务的架构中,实现真正的可观测性比以往任何时候都更加复杂。一个用户请求可能遍历数十个微服务,每个微服务都持续发出日志、指标和追踪。这种遥测数据的量是惊人的:每分钟通常有数十TB的日志、数千万个指标数据点、数百万个分布式追踪和数千个关联ID生成。除了数据量,主要挑战在于数据碎片化。根据New Relic的2023年可观测性预测报告,一半的组织报告遥测数据是孤立的,只有33%的组织实现了指标、日志和追踪的统一视图。日志讲述故事的一部分,指标讲述另一部分,追踪又讲述另一部分。如果没有一致的上下文线索,工程师在事故期间将被迫进行手动关联,依赖直觉、部落知识和繁琐的侦查工作。这种复杂性引出了一个问题:人工智能如何帮助我们摆脱碎片化的数据,并提供全面、可操作的洞察,特别是通过使用MCP等结构化协议,使遥测数据对人类和机器都更具内在意义和可访问性?

这个核心问题构成了该项目的基础。Anthropic将MCP定义为一个开放标准,旨在在不同的数据源和AI工具之间建立安全的双向连接。这种结构化数据管道包含三个关键要素:用于AI的上下文ETL,它标准化了从多个来源提取上下文的过程;一个结构化查询接口,使AI查询能够访问透明且易于理解的数据层;以及语义数据丰富,它将有意义的上下文直接嵌入到遥测信号中。这种集成方法有可能将平台可观测性从被动的问题解决转向主动的洞察。

这个基于MCP的AI可观测性平台的系统架构是分层的。在初始层,通过将标准化元数据直接嵌入到遥测信号(如分布式追踪、日志和指标)中来开发上下文遥测数据。然后,这些丰富的数据会馈送到第二层,即MCP服务器,它对这些上下文丰富的信息进行索引、结构化并提供API驱动的客户端访问。最后,第三层,一个AI驱动的分析引擎,利用这些结构化和丰富的遥测数据进行复杂的异常检测、关联和根本原因分析,以解决应用程序问题。这种分层设计确保AI和工程团队都能从遥测数据中获得上下文驱动的、可操作的洞察。

这个三层系统的实现始于上下文丰富的数据生成。这里的核心洞察是,数据关联需要在创建时发生,而不是在分析期间。通过在每个遥测信号(日志、指标、追踪)生成时嵌入一组一致的上下文数据(例如用户ID、订单ID、请求ID和服务详细信息),系统从源头解决了关联问题。这确保了每条数据本身都携带着后续分析所需的上下文。

第二层涉及构建MCP服务器,它将这些原始的、上下文丰富的遥测数据转换为可查询的API。此阶段的关键操作包括:为上下文字段的高效查找进行索引,过滤以选择相关的数据子集,以及聚合以计算时间窗口内的统计度量。这一层有效地将非结构化数据转换为结构化、查询优化的接口,AI系统可以高效地导航。

最后一层是AI分析引擎。该组件通过MCP接口消费数据,并执行多维分析,关联日志、指标和追踪中的信号。它还处理异常检测,识别与正常模式的统计偏差,并通过上下文线索隔离问题的可能来源,进行根本原因确定。例如,该引擎可以在指定时间范围内根据特定的请求或用户ID获取相关日志和指标,分析服务指标(如延迟和错误率)的统计属性,然后使用Z分数等统计方法识别异常,从而精确定位高严重性偏差。

MCP与可观测性平台的集成有望在管理和理解复杂遥测数据方面带来显著改进。潜在的好处包括更快的异常检测,从而减少检测最短时间(MTTD)和解决最短时间(MTTR)。它还有助于更容易地识别根本原因,减少噪音和不可操作的警报,从而对抗警报疲劳并提高开发人员的工作效率。此外,它最大限度地减少了事故解决期间的中断和上下文切换,提高了工程团队的运营效率。

该项目的关键洞察强调了在遥测生成过程早期嵌入上下文元数据的重要性,以促进下游关联。结构化数据接口对于创建API驱动的、结构化查询层至关重要,这些层使遥测更易于访问。上下文感知AI应将其分析重点放在上下文丰富的数据上,以提高准确性和相关性。最后,上下文丰富和AI方法都必须根据实际操作反馈进行持续改进。

结构化数据管道与AI的结合为可观测性的未来带来了巨大的希望。通过利用像MCP这样的结构化协议和先进的AI驱动分析,组织可以将庞大的遥测数据转化为可操作的洞察,从而从被动的问题解决转向主动的系统管理。Lumigo将日志、指标和追踪视为可观测性的三大基本支柱;如果它们之间没有无缝集成,工程师将被迫手动关联不同的数据源,从而显著减慢事故响应速度。这不仅需要新的分析技术来提取意义,还需要遥测生成方式的结构性变革。