MLE-STAR:谷歌AI智能体,极简输入自动化构建ML管道
Google Research 推出了 MLE-STAR,这是一种新型 AI 智能体,旨在以最少的人工干预自动化构建机器学习 (ML) 管道的复杂过程。该系统旨在简化各种数据类型上的复杂 ML 任务,能够仅凭任务描述和提供的数据生成可执行的 Python 脚本。
传统的 ML 自动化智能体通常依赖于有限的标准工具集,并且在探索多样化模型或管道组件时往往缺乏灵活性。它们通常一次性重写整个代码库,这使得特征工程等特定步骤的有针对性改进变得复杂。MLE-STAR 通过多步骤、迭代方法解决了这些限制。
该智能体首先利用网络搜索来发现当代的模型思想,并利用这些信息构建初始解决方案。然后,它细致分析代码库,以识别哪个部分——无论是特征工程、模型选择还是集成构建——对整体性能影响最大。有了这一洞察,MLE-STAR 将精力集中在逐步优化该特定代码块上,不断整合先前实验的反馈,并使用改进后的脚本作为下一次迭代的起点。
除了其核心优化过程,MLE-STAR 还包括多个模块以确保稳健可靠的结果。它能够生成多种解决方案变体,并开发自己的集成策略,迭代增强它们以获得最大预测能力。为了防止常见陷阱,该系统集成了调试代理以修复运行时错误,数据泄露检查器以防止训练期间未经授权访问测试数据,以及数据使用检查器以确保所有可用数据源(不仅仅是基本的 CSV 文件)都得到利用。
谷歌在 MLE-Bench-Lite 上测试了 MLE-STAR,这是一个源自实际 Kaggle 竞赛的基准测试套件。结果显示性能显著飞跃,该智能体在 63.6% 的案例中获得了奖牌,比之前最好的 25.8% 大幅提升。值得注意的是,其中 36% 是金牌。谷歌将这一成功归因于 MLE-STAR 能够整合 EfficientNet 和 ViT 等现代模型架构,这与通常偏爱 ResNet 等旧设计的竞争系统形成对比。该系统还支持手动调整,通过提供手动描述后成功整合 RealMLP 模型得到了证明。
开发团队观察到,像 Gemini 2.5 Flash 和 Pro 这样的大型语言模型生成了有缺陷的代码,例如使用测试数据进行归一化。MLE-STAR 的集成数据泄露检查器在这些情况下有效地进行了干预。同样,数据使用检查器识别并包含了最初在测试中被忽略的数据集。
MLE-STAR 现已作为开源项目提供,基于谷歌的 Agent Development Kit 构建。用户有责任确保其使用的任何模型或网络搜索内容的适当许可。目前,MLE-STAR 仅用于研究目的。