MolmoAct de Ai2: La IA que revoluciona la navegación 3D de robots

Techpark

El Allen Institute for AI (Ai2) ha desvelado MolmoAct 7B, un innovador modelo de IA encarnada diseñado para cerrar la brecha entre la inteligencia artificial compleja y su aplicación práctica en el mundo físico. A diferencia de los sistemas de IA tradicionales que a menudo traducen instrucciones lingüísticas en movimiento, MolmoAct adopta un enfoque fundamentalmente diferente: percibe visualmente su entorno, comprende las intrincadas relaciones entre el espacio, el movimiento y el tiempo, y luego planifica sus acciones en consecuencia. Esta inteligencia se logra transformando las entradas de imágenes bidimensionales en planes espaciales tridimensionales completos, lo que permite a los robots navegar por el mundo físico con una comprensión y un control mejorados.

Aunque el razonamiento espacial no es nuevo en la IA, la mayoría de los sistemas contemporáneos dependen de arquitecturas propietarias y cerradas entrenadas con vastos conjuntos de datos, a menudo inaccesibles. Dichos modelos suelen ser difíciles de reproducir, costosos de escalar y funcionan como “cajas negras” opacas. MolmoAct, por el contrario, ofrece una alternativa transparente y abierta, habiendo sido entrenado íntegramente con datos disponibles públicamente. Su diseño prioriza la generalización y la interpretabilidad en el mundo real; sus rastros de razonamiento visual paso a paso permiten a los usuarios previsualizar las acciones previstas de un robot y guiar intuitivamente su comportamiento en tiempo real a medida que las condiciones evolucionan.

“La IA encarnada necesita una nueva base que priorice el razonamiento, la transparencia y la apertura”, afirmó Ali Farhadi, CEO de Ai2. “Con MolmoAct, no solo estamos lanzando un modelo; estamos sentando las bases para una nueva era de la IA, llevando la inteligencia de potentes modelos de IA al mundo físico. Es un paso hacia una IA que pueda razonar y navegar por el mundo de maneras más alineadas con cómo lo hacen los humanos, y colaborar con nosotros de forma segura y eficaz.”

MolmoAct representa el lanzamiento inaugural de una nueva clase de modelos que Ai2 denomina Modelos de Razonamiento de Acción (ARMs). Un ARM está diseñado para interpretar instrucciones de lenguaje natural de alto nivel y secuenciar lógicamente acciones físicas para ejecutarlas en el mundo real. A diferencia de los modelos de robótica convencionales de extremo a extremo que podrían tratar una tarea compleja como un comando único e indiferenciado, los ARMs desglosan las instrucciones de alto nivel en una cadena transparente de decisiones basadas en el espacio. Este proceso de razonamiento en capas implica tres etapas clave: primero, percepción consciente en 3D, que fundamenta la comprensión del entorno del robot utilizando profundidad y contexto espacial; segundo, planificación visual de puntos de referencia, que describe una trayectoria de tarea paso a paso dentro del espacio de la imagen; y finalmente, decodificación de acciones, que convierte el plan visual en comandos de control precisos y específicos del robot. Este enfoque sofisticado permite a MolmoAct interpretar un comando como “Clasifica esta pila de basura” no como una acción singular, sino como una serie estructurada de subtareas: reconocer la escena, agrupar objetos por tipo, agarrarlos individualmente y repetir el proceso.

MolmoAct 7B, el modelo inicial de su familia, fue entrenado con un conjunto de datos meticulosamente curado que comprende aproximadamente 12.000 “episodios de robots” capturados de entornos del mundo real como cocinas y dormitorios. Estas demostraciones se transformaron en secuencias de razonamiento robótico, ilustrando cómo las instrucciones complejas se mapean a acciones concretas y orientadas a objetivos. Los investigadores de Ai2 dedicaron meses a curar videos de robots realizando diversas tareas domésticas, desde organizar almohadas en un sofá de la sala de estar hasta guardar la ropa en un dormitorio.

Sorprendentemente, MolmoAct logra este rendimiento sofisticado con una notable eficiencia. Su entrenamiento implicó aproximadamente 18 millones de muestras, pre-entrenadas durante más de 24 horas en 256 GPUs NVIDIA H100, seguidas de solo dos horas de ajuste fino en 64 GPUs. Esto contrasta marcadamente con muchos modelos comerciales que demandan cientos de millones de muestras y recursos computacionales significativamente mayores. A pesar de su entrenamiento “ligero”, MolmoAct ha demostrado un rendimiento superior en benchmarks clave, incluida una tasa de éxito del 71,9% en SimPLER, lo que subraya que los datos de alta calidad y un diseño cuidadoso pueden superar a los modelos entrenados con muchos más datos y computación.

En línea con la misión de Ai2, MolmoAct está construido para la transparencia, una desviación crítica de la naturaleza opaca de la mayoría de los modelos de robótica. Los usuarios pueden previsualizar los movimientos planificados del modelo antes de la ejecución, con trayectorias de movimiento superpuestas en las imágenes de la cámara. Estos planes se pueden ajustar utilizando comandos de lenguaje natural o correcciones rápidas de bocetos en una pantalla táctil, ofreciendo un control preciso y mejorando la seguridad en aplicaciones del mundo real dentro de hogares, hospitales y almacenes. Además, MolmoAct es completamente de código abierto y reproducible; Ai2 está lanzando todos los componentes necesarios para construir, ejecutar y extender el modelo, incluidos los pipelines de entrenamiento, los conjuntos de datos previos y posteriores al entrenamiento, los puntos de control del modelo y los benchmarks de evaluación. Al establecer un nuevo estándar para la IA encarnada que es segura, interpretable, adaptable y verdaderamente abierta, Ai2 tiene como objetivo expandir sus pruebas tanto en entornos simulados como en el mundo real, fomentando el desarrollo de sistemas de IA más capaces y colaborativos.