平台工程:赋能企业AI采纳的核心支柱
技术采纳的格局正在发生变化,尤其是在人工智能领域。那种自上而下强制推行开发者工具的时代正在消退,大约一半的公司现在通过自下而上的方式推动AI采纳,赋能团队尝试新的AI开发工具。对于那些迟迟未能拥抱这一转变的组织来说,“影子AI”(员工未经授权使用的工具)的兴起将很快迫使他们正式采纳AI。
然而,这种新获得的自由也带来了显著的风险和潜在的低效率。尽管AI已快速整合三年多,但只有60%的组织建立了可接受的AI使用政策。此外,虽然三分之二的组织已将AI工具部署到生产环境中,但同样有60%的组织仍缺乏明确的指标来有效衡量AI的影响。更甚者,对开发者每天20%的编码时间的高度关注揭示了一个令人惊讶的悖论:AI生成的代码,虽然被认为是生产力助推器,但实际上可能会降低开发者的吞吐量并损害可靠性。
这种复杂的环境凸显了平台工程日益增长的相关性,它在近年兴起,主要应对现代技术堆栈日益增长的复杂性。如今,它为许多AI采纳障碍提供了引人注目的解决方案。正如AI本身一样,平台工程在解决阻碍软件开发者向最终用户交付价值的“繁琐工作”和其他干扰时,效果最佳。
因此,毫不奇怪,六月举行的第四届PlatformCon大会大量讨论了AI背景下的平台工程。事实证明,内部开发者平台(IDP)可以建立理想的护栏,促进AI创新而不会带来灾难性后果。该领域的知名人物卢卡·加兰特(Luca Galante)强调了这一点,他指出,尽管AI占据了头条新闻,但“AI平台将是这一切的支柱”,它能为从数据科学、机器学习到传统工程的一切提供企业级的生产路径。
AI时代要求IDP演进以涵盖AI流程。这种扩展将促进已验证的AI用例在软件开发中的可扩展部署,同时打破数据孤岛。通过弥合这些差距,平台工程有望确保自主AI智能体和生成式AI应用的交付一致性、质量和安全性。
直到最近,AI仍主要局限于数据科学部门。现在,它需要遵循跨组织云计算采纳的轨迹。《DevOps手册》的合著者帕特里克·德布瓦(Patrick Debois)在PlatformCon上指出,AI需要一个专门的平台团队。在这个新时代,AI工程师将成为关键的变革推动者,通过与平台团队在跨团队协作、为数据科学和应用团队赋能以及稳健治理方面的合作,加速数据科学走向生产的路径。
德布瓦设想了一种AI赋能的传统内部开发者平台,其组织结构将包含更多AI利益相关者,并扩展其范围以管理:大语言模型(LLMs),无论是开源、专有还是混合型;非结构化和结构化数据,需要通过向量数据库进行索引;RagOps(检索增强生成即服务),一个整合第三方数据源的新兴概念;AI智能体即服务,涵盖内存、状态、访问控制以及对模型上下文协议(MCP)服务器的暴露;AI智能体的执行沙箱;所有模型输入和输出的全面访问和版本控制;以及一个中央缓存层来管理成本。所有这些组件都将通过平台的“单一管理界面”访问,提供透明度和统一视图。这种全面且不断扩展的工具集进一步强调了IDP有效管理它的必要性。德布瓦建议,新的AI平台团队应首先创建原型和沙箱环境,以便安全地试验新的AI工具。一旦开发者熟悉起来,一个与现有语言对齐的标准化框架以及一个用于缓存、测试和调试的强大生态系统,可以为AI开发带来更明确的“黄金路径”。
德布瓦还概述了四种不断发展的“AI原生开发者”模式:从生产者到管理者的转变,即开发者在运营支持下管理代码智能体;从实现到意图,即开发者表达“什么”,而AI处理“如何”;从交付到发现,通过现有CI/CD管道降低实验成本;以及从内容到知识,因为AI为团队分享知识提供了令人信服的理由,可能使知识本身成为公司独特的价值主张。
像所有产品开发一样,平台团队必须考虑其用户群,对于AI而言,用户群超越了传统的开发者。平衡能源公司(Equilibrium Energy)的基础设施和平台负责人伊娜·斯托亚诺娃(Ina Stoyanova)强调了原生AI工具有机扩展的必要性。在AI的早期阶段,特别是对于初创公司而言,快速变化使得僵化、永久性的平台功能可能成为浪费。通过与利益相关者接触,平衡能源的平台团队确定了软件工程和数据科学团队的关键需求,包括集群管理、计算资源、数据资源、数据工具、存储、查询分析和可观测性。然而,数据科学和定量分析团队也有独特的考量,这些最初并未在平台工程团队的关注范围内。斯托亚诺娃为她的团队重新定义了平台工程,即“一套精选的可重用工具、工作流、API和文档,使内部用户能够以最小的认知负荷自助服务基础设施、环境和部署管道。”这种以用户为中心的方法,询问用户“您想使用哪些工具?”,使他们能够构建正确的解决方案,而不会过度投资或阻碍初创公司的适应能力。平衡能源公司还从一开始就优先考虑成本跟踪和指标,这是一个在业务和技术团队之间引起共鸣的用例。
有效利用AI的关键在于充分利用结构化和非结构化数据。内部开发者平台是数据科学家和机器学习工程师构建数据策略以驱动AI用例的支架。在PlatformCon大会上,平台工程社区宣布了一项新的AI参考架构,计划于今年晚些时候发布。该架构提供了一个结构化的心智模型,涵盖可观测性、平台接口和版本控制、集成与交付、数据和模型管理以及安全平面。正如卢卡·加兰特所指出的,这超越了技术变革,正在改变行业对平台工程团队本身的看法。
传统上,平台工程团队由多元化的角色组成,从平台工程主管到基础设施、开发者体验和产品经理,服务于包括开发者、高管、合规、法律、基础设施、运营和安全团队在内的利益相关者。鉴于AI的发展,团队结构和角色发展已扩展到包括可靠性、安全、数据和AI以及可观测性平台工程师。这个更广泛的团队现在与更广泛的利益相关者互动,例如站点可靠性工程团队、架构师、数据科学家和机器学习运营工程师,这反映了市场中特定需求的粒度增加。毫无疑问,平台团队在AI时代面临着扩展的范围。
现代平台团队的一个关键角色是识别和扩展跨领域的生成式AI应用交付用例,并选择合适的设计模式(例如,开放式与封闭式生成式AI模型)。然而,高德纳(Gartner)副总裁分析师兼研究员马朱纳特·巴特(Majunath Bhat)在PlatformCon上强调,平台团队面临的最普遍的AI挑战是安全和治理,这通常与成本影响交织在一起。由于产品团队可能缺乏这些领域的专业知识,架构师通常提供主题专业知识。为了将应用扩展到简单的原型之外,巴特建议建立一个生成式AI卓越中心,或根据团队拓扑(Team Topologies)建立一个“赋能团队”。该团队将与产品团队和平台工程专家紧密合作,提供可扩展的专业知识。巴特告诫不要立即构建共享平台,这与斯托亚诺娃的观点不谋而合:“除非我们了解不同的应用需求是什么,否则平台团队不应假设他们理解这些需求。”这种方法,可能包括AI专家组成的“复杂子系统团队”,可以进一步减少应用和平台团队的认知负荷。
应用安全领域正在出现新的范式。虽然AI生成的代码意味着需要扫描和保护的代码量更大,但自主AI智能体也可以帮助进行主动和自主修复。内部开发者平台不仅是推出新AI工具的渠道,也是建立护栏、管理基于角色的访问控制和自动化安全检查的关键层。Checkmarx高级产品经理索尼亚·安陶(Sónia Antão)在PlatformCon上强调,传统的应用安全无法跟上更多代码、更多贡献者和更短时间表的速度。她主张将自主AI智能体与应用安全态势管理(ASPM)直接集成到集成开发环境(IDE)中,以实现实时代码安全。这种“智能左移”使应用安全能够获得清晰的、与风险对齐的应用全景图,不仅能及早发现漏洞,还能以业务所需的速度更快、更有信心地解决它们。这种方法已使漏洞减少25-35%,响应速度提高69%。
正如《高效平台工程》(Effective Platform Engineering)一书的作者阿贾伊·钱克拉马特(Ajay Chankramath)在PlatformCon 2025上讨论的那样,生成式AI可以将平台工程转变为自适应的智能系统,从而提高开发者生产力、可靠性和业务对齐。他指出,生成式AI已从被动辅助演变为自主的、意图感知的智能体,实现了自愈管道、实时反馈和个性化代码建议。推动这些转变的关键影响因素包括:检索增强生成(RAG),它将AI智能体的答案基于实时、上下文文档;模型上下文协议(MCP),标准化LLM智能体与外部API的通信方式以鼓励采纳;以及将生成式AI集成到CI/CD管道中,实现智能、自我纠正和自调整的流程。
钱克拉马特描述了从开发者“自行寻找”到标准化IDP,再到将AI智能体直接嵌入开发者工作流的演变。运营已从基于工单的方式转变为半自助服务,现在则转向基于意图的自主智能体。他强调,目标不是替代,而是提升:使开发者和平台工程师能够专注于更高价值的活动。为支持AI驱动平台工程的这一演变,他提出了五项建议:将AI策略与开发者价值流对齐,将AI视为集成的、流原生的组件;始终保持人工判断的参与,确保智能体提出而非批准行动;使AI智能体具有协作性,允许开发者覆盖、重新训练和重新情境化它们;默认构建可观测性和护栏,包括令牌跟踪日志、提示漂移检测和相关性评分;并将AI影响衡量扩展到准确性和延迟之外,包括内部客户净推荐值(NPS),分享所有学习和指标以证明效益并提高采纳率。
Coder公司Blink深度代码研究代理负责人马修·沃尔默(Matthew Vollmer)呼应了“带护栏的黄金路径”的观点,强调目标不仅是使用智能体,而是明智地使用它们以提高生产力和安全性。这需要为智能体提供上下文(文档、策略、代码库)、负责任的授权(首先将工具提供给高级开发者),并通过具有严格访问控制和使用限制的隔离、短暂环境设置清晰的边界。拥抱规范驱动开发确保AI智能体完全按照指示执行,避免风险或过高成本。他建议,最佳点在于将“独立、明确定义的小到中型错误修复等任务”分配给智能体。内部开发者平台可以通过像同事一样引导AI智能体来促进这一点。沃尔默分享了一个轶事,一位工程师将这种体验描述为“与一个超快的初级开发者结对编程,他能以人类初级开发者100倍的速度编写代码。”通过将这些“繁琐任务”卸载给AI,团队可以保护他们的创新时间,让开发者专注于高价值工作。
最终,AI和平台工程都在摩擦力高的地方蓬勃发展。平台工程旨在降低开发者的认知负荷,而AI如果实施得当,可以显著推进这一目标。这种协同作用不仅惠及个体开发者,也惠及整个软件组织。根据Atlassian 2025年开发者体验报告,开发者已经利用AI节省的时间来改进代码、开发新功能和创建文档。当平台驱动的AI采纳有效执行时,它会带来更多时间用于价值驱动的活动。