MLE-STAR：谷歌AI智能体，极简输入自动化构建ML管道

Google Research 推出了 MLE-STAR，这是一种新型 AI 智能体，旨在以最少的人工干预自动化构建机器学习 (ML) 管道的复杂过程。该系统旨在简化各种数据类型上的复杂 ML 任务，能够仅凭任务描述和提供的数据生成可执行的 Python 脚本。

传统的 ML 自动化智能体通常依赖于有限的标准工具集，并且在探索多样化模型或管道组件时往往缺乏灵活性。它们通常一次性重写整个代码库，这使得特征工程等特定步骤的有针对性改进变得复杂。MLE-STAR 通过多步骤、迭代方法解决了这些限制。

该智能体首先利用网络搜索来发现当代的模型思想，并利用这些信息构建初始解决方案。然后，它细致分析代码库，以识别哪个部分——无论是特征工程、模型选择还是集成构建——对整体性能影响最大。有了这一洞察，MLE-STAR 将精力集中在逐步优化该特定代码块上，不断整合先前实验的反馈，并使用改进后的脚本作为下一次迭代的起点。

除了其核心优化过程，MLE-STAR 还包括多个模块以确保稳健可靠的结果。它能够生成多种解决方案变体，并开发自己的集成策略，迭代增强它们以获得最大预测能力。为了防止常见陷阱，该系统集成了调试代理以修复运行时错误，数据泄露检查器以防止训练期间未经授权访问测试数据，以及数据使用检查器以确保所有可用数据源（不仅仅是基本的 CSV 文件）都得到利用。

谷歌在 MLE-Bench-Lite 上测试了 MLE-STAR，这是一个源自实际 Kaggle 竞赛的基准测试套件。结果显示性能显著飞跃，该智能体在 63.6% 的案例中获得了奖牌，比之前最好的 25.8% 大幅提升。值得注意的是，其中 36% 是金牌。谷歌将这一成功归因于 MLE-STAR 能够整合 EfficientNet 和 ViT 等现代模型架构，这与通常偏爱 ResNet 等旧设计的竞争系统形成对比。该系统还支持手动调整，通过提供手动描述后成功整合 RealMLP 模型得到了证明。

开发团队观察到，像 Gemini 2.5 Flash 和 Pro 这样的大型语言模型生成了有缺陷的代码，例如使用测试数据进行归一化。MLE-STAR 的集成数据泄露检查器在这些情况下有效地进行了干预。同样，数据使用检查器识别并包含了最初在测试中被忽略的数据集。

MLE-STAR 现已作为开源项目提供，基于谷歌的 Agent Development Kit 构建。用户有责任确保其使用的任何模型或网络搜索内容的适当许可。目前，MLE-STAR 仅用于研究目的。

MLE-STAR：谷歌AI智能体，极简输入自动化构建ML管道

相关文章

DeepMind发布Genie 3：AI“世界模型”突破，实时生成高一致性互动3D世界

DeepMind发布Genie 3：交互式世界模型，迈向通用人工智能新里程碑

谷歌DeepMind发布Genie 3：AI机器人虚拟训练新纪元