NASA发布伽利略:地球观测开源AI模型新篇章
NASA近日发布了“伽利略”(Galileo),这是一款开源、高度多模态的基础模型,旨在大规模处理、分析和解释多样化的地球观测(EO)数据流。在麦吉尔大学、NASA Harvest Ai2、卡尔顿大学、不列颠哥伦比亚大学、Vector Institute和亚利桑那州立大学研究人员的支持下,伽利略旨在为农业土地测绘、灾害响应和环境监测等关键应用提供统一的通用解决方案。
与以往通常仅限于单一数据类型或尺度的遥感模型不同,伽利略旨在灵活融合多种传感模态。这使其能够识别从微小物体(如仅1-2像素的渔船)到广阔、缓慢演变的地物(如冰川)等各种现象。
主要特性与架构
伽利略基于视觉Transformer(ViT)架构构建,这是一种专门用于处理各种地球观测数据的神经网络设计。这包括多光谱光学图像(例如Sentinel-2)、合成孔径雷达(SAR)数据(例如Sentinel-1)、高程和坡度数据(例如NASA SRTM)、天气和气候数据(例如ERA5的降水和温度),以及各种辅助地图,如土地覆盖、人口密度和夜间灯光。
其灵活的输入处理得益于复杂的标记化(tokenization)管道。该过程将多样化的遥感输入分解为标准化的空间补丁、时间步和逻辑通道组,使模型能够在单一架构配置内处理图像、时间序列和静态表格数据。
伽利略的核心创新在于其自监督预训练算法,该算法采用了双目标学习方法:
全局目标: 鼓励模型在广阔的空间或时间背景下学习抽象表示,非常适合识别大规模或缓慢变化的特征,如冰川或森林砍伐。
局部目标: 增强模型对微小细节的敏感性,对于检测船只或碎片等小型、快速变化的对象至关重要。
这种目标组合,在预测目标和掩蔽策略上有所不同,显著增强了多尺度特征表示能力。这种设计使伽利略在各种任务中具有高度的泛化性,即使在标记数据有限的情况下也能表现出色。
预训练数据集与策略
为确保全面的语义和地理多样性,伽利略的预训练数据集覆盖全球。通过聚类方法选择样本,以最大化土地覆盖的多样性和地理分布。该数据集包含超过127,000个时空对齐的样本,涵盖四个类别和九种不同的遥感数据类型。预训练进行了500个epoch,使用了大量的计算资源,采用有效的批量大小为512,各种数据增强(翻转、旋转、可变补丁大小),并使用AdamW进行优化。
基准测试结果
伽利略在11个不同的数据集和15个下游任务上进行了严格的基准测试,包括图像分类、像素时间序列分类和分割。该模型展示了卓越的泛化能力,在EuroSat、BigEarthNet、So2Sat、MADOS(海洋碎片)、Sen1Floods11(SAR洪水测绘)和CropHarvest(多模态作物分类)等公共数据集上超越了现有的专业模型。
伽利略-Base(ViT-Base)的性能亮点包括:
分类(微调): 在EuroSat上(使用100%训练数据)达到97.7%的top-1准确率,超越了CROMA(96.6%)和SatMAE(96.6%)等专业模型。
像素时间序列: 在CropHarvest(肯尼亚)上达到84.2%的准确率,优于Presto和AnySat;在Breizhcrops上达到73.0%。
分割(mIoU): 在MADOS上达到67.6%,在PASTIS上达到79.4%。
在所有基准测试中,伽利略始终是整体表现最佳的模型,展现出比专注于图像或时间序列数据的竞争对手更大的灵活性。值得注意的是,较小的模型变体(ViT-Nano、ViT-Tiny)也取得了具有竞争力的结果,使伽利略在资源受限的环境中也具备可行性。消融研究进一步强调了多模态的价值:在预训练期间移除任何单一输入类型都会导致可测量的性能下降,即使在不直接使用该输入的基准测试上也是如此,这证明了整合多样化数据的全面益处。
开源与实际影响
伽利略的所有代码、模型权重和预训练数据均在GitHub上开放访问,促进了透明度并方便了全球地球观测社区的采用。该模型已支持NASA Harvest的关键任务活动,包括全球作物类型测绘、快速灾害测绘(洪水、野火)和海洋污染检测。其在标记数据有限的地区也能有效运行的能力尤为宝贵,直接支持全球粮食安全和气候适应工作。
伽利略在方法论和工程方面的进步——包括多模态输入、多尺度局部-全局特征学习以及大规模、全球多样化的预训练——为通用遥感AI树立了新标杆。其固有的灵活性有望支撑从环境监测到气候韧性等领域的实际部署,无论任务或地理区域如何,都能提供可靠、高质量的地图和预测。凭借其开源性质和持续开发,伽利略有望催化地球系统科学领域的重大创新,赋能全球从业者。