NASA Lanza Galileo: IA de Código Abierto Revoluciona la Observación Terrestre
La NASA ha presentado Galileo, un modelo fundacional de código abierto y altamente multimodal diseñado para procesar, analizar e interpretar flujos diversos de datos de Observación de la Tierra (EO) a escala. Desarrollado con el apoyo de investigadores de la Universidad McGill, NASA Harvest Ai2, la Universidad de Carleton, la Universidad de Columbia Británica, el Vector Institute y la Universidad Estatal de Arizona, Galileo tiene como objetivo proporcionar una solución unificada y de propósito general para aplicaciones críticas como el mapeo de tierras agrícolas, la respuesta a desastres y el monitoreo ambiental.
A diferencia de los modelos de teledetección anteriores, a menudo limitados a un solo tipo o escala de datos, Galileo está diseñado para fusionar de manera flexible múltiples modalidades de detección. Esto le permite reconocer fenómenos que van desde objetos minúsculos, como barcos de pesca que miden solo 1-2 píxeles, hasta características vastas y de evolución lenta como los glaciares.
Características clave y arquitectura
Galileo se basa en una arquitectura Vision Transformer (ViT), un tipo de diseño de red neuronal específicamente adaptado para procesar una amplia gama de datos de observación de la Tierra. Esto incluye imágenes ópticas multiespectrales (por ejemplo, Sentinel-2), datos de Radar de Apertura Sintética (SAR) (por ejemplo, Sentinel-1), datos de elevación y pendiente (por ejemplo, NASA SRTM), datos meteorológicos y climáticos (por ejemplo, precipitación y temperatura de ERA5), y varios mapas auxiliares como la cobertura del suelo, la densidad de población y las luces nocturnas.
Su manejo flexible de entradas se facilita mediante una sofisticada tubería de tokenización. Este proceso descompone diversas entradas de teledetección en parches espaciales estandarizados, pasos de tiempo y grupos de canales lógicos, lo que permite al modelo procesar imágenes, series de tiempo y datos tabulares estáticos dentro de una única configuración arquitectónica.
Una innovación central en Galileo es su algoritmo de preentrenamiento auto-supervisado, que emplea un enfoque de aprendizaje de doble objetivo:
- Objetivos globales: Estos alientan al modelo a aprender representaciones abstractas en contextos espaciales o temporales amplios, ideales para identificar características a gran escala o de cambio lento, como glaciares o la pérdida de bosques.
- Objetivos locales: Estos mejoran la sensibilidad del modelo a detalles minúsculos, cruciales para detectar objetos pequeños y de cambio rápido como barcos o escombros. Esta combinación de objetivos, que difieren en sus objetivos de predicción y estrategias de enmascaramiento, mejora significativamente la representación de características multiescala. Este diseño hace que Galileo sea altamente generalizable en diversas tareas y robusto incluso cuando trabaja con datos etiquetados limitados.
Conjunto de datos y estrategia de preentrenamiento
Para garantizar una diversidad semántica y geográfica integral, el conjunto de datos de preentrenamiento de Galileo cubre todo el globo. Las muestras se seleccionaron utilizando un enfoque de agrupamiento para maximizar tanto la variedad de cobertura del suelo como la dispersión geográfica. El conjunto de datos comprende más de 127,000 muestras alineadas espacio-temporalmente, que abarcan cuatro categorías y nueve tipos distintos de datos de teledetección. El preentrenamiento se realizó durante 500 épocas utilizando importantes recursos informáticos, empleando un tamaño de lote efectivo de 512, diversas aumentaciones de datos (volteo, rotación, tamaños de parche variables) y optimizado con AdamW.
Resultados de referencia
Galileo ha sido rigurosamente evaluado en 11 conjuntos de datos diversos y 15 tareas posteriores, incluyendo clasificación de imágenes, clasificación de series de tiempo de píxeles y segmentación. El modelo demostró una generalización superior, superando a los modelos especialistas existentes en conjuntos de datos públicos como EuroSat, BigEarthNet, So2Sat, MADOS (escombros marinos), Sen1Floods11 (mapeo de inundaciones SAR) y CropHarvest (clasificación multimodal de cultivos).
Los aspectos destacados del rendimiento de Galileo-Base (ViT-Base) incluyen:
- Clasificación (Finetune): 97.7% de precisión top-1 en EuroSat (con el 100% de los datos de entrenamiento), superando a modelos especialistas como CROMA (96.6%) y SatMAE (96.6%).
- Series de tiempo de píxeles: 84.2% de precisión en CropHarvest (Kenia), superando a Presto y AnySat; 73.0% en Breizhcrops.
- Segmentación (mIoU): 67.6% en MADOS y 79.4% en PASTIS.
En todos los puntos de referencia, Galileo emergió consistentemente como el mejor intérprete general, demostrando mayor flexibilidad que los competidores especializados en datos de imagen o de series de tiempo. Notablemente, las variantes de modelo más pequeñas (ViT-Nano, ViT-Tiny) también lograron resultados competitivos, haciendo que Galileo sea viable para entornos con recursos limitados. Los estudios de ablación subrayaron aún más el valor de la multimodalidad: la eliminación de cualquier tipo de entrada durante el preentrenamiento condujo a una disminución medible del rendimiento, incluso en puntos de referencia que no utilizaban directamente esa entrada, lo que demuestra el beneficio integral de integrar datos diversos.
Código abierto e impacto en el mundo real
Todo el código, los pesos del modelo y los datos de preentrenamiento de Galileo son de acceso abierto en GitHub, lo que promueve la transparencia y facilita su adopción por parte de la comunidad global de observación de la Tierra. El modelo ya está apoyando actividades de misión crítica de NASA Harvest, incluyendo el mapeo global de tipos de cultivos, el mapeo rápido de desastres (inundaciones, incendios forestales) y la detección de contaminación marina. Su capacidad para funcionar eficazmente con datos etiquetados limitados es particularmente valiosa en regiones donde la información de campo es escasa, apoyando directamente la seguridad alimentaria global y los esfuerzos de adaptación climática.
Los avances metodológicos y de ingeniería de Galileo, que abarcan entradas multimodales, aprendizaje de características locales-globales multiescala y un preentrenamiento a gran escala y globalmente diverso, establecen un nuevo punto de referencia para la IA de teledetección generalista. Su flexibilidad inherente está preparada para sustentar despliegues prácticos desde el monitoreo ambiental hasta la resiliencia climática, proporcionando mapas y predicciones confiables y de alta calidad, independientemente de la tarea o el área geográfica. Con su naturaleza de código abierto y su desarrollo continuo, se espera que Galileo catalice una innovación significativa en la ciencia del sistema terrestre, empoderando a los profesionales de todo el mundo.