MolmoAct de Ai2: La IA de Razonamiento 3D que Desafía a Nvidia y Google en Robótica

Venturebeat

El campo de la IA física, en rápida evolución, donde los sistemas robóticos se integran con modelos fundamentales avanzados, está atrayendo una inversión e investigación significativas de gigantes tecnológicos como Nvidia, Google y Meta. Ahora, el Allen Institute for AI (Ai2) desafía a estos líderes de la industria con el lanzamiento de MolmoAct 7B, un nuevo modelo de código abierto diseñado para dotar a los robots de sofisticadas capacidades de razonamiento espacial. A diferencia de muchos modelos convencionales de visión-lenguaje-acción (VLA) que procesan información principalmente en un contexto bidimensional, MolmoAct está diseñado para “razonar en el espacio”, pensando eficazmente en tres dimensiones.

Ai2 clasifica a MolmoAct como un Modelo de Razonamiento de Acción, una categoría donde los modelos fundamentales se involucran en el razonamiento espacial para comprender y planificar acciones dentro de un entorno físico tridimensional. Esto significa que MolmoAct puede aprovechar sus capacidades de razonamiento para comprender el mundo físico que lo rodea, determinar cómo ocupa el espacio y, posteriormente, ejecutar acciones apropiadas.

Esta comprensión espacial se logra a través de un enfoque novedoso que involucra “tokens de percepción espacialmente fundamentados”. Estos tokens, preentrenados y extraídos de entradas visuales como video utilizando un autoencoder variacional cuantificado por vectores, difieren fundamentalmente de las entradas basadas en texto que suelen usar los modelos VLA. Al codificar estructuras geométricas y estimar distancias entre objetos, MolmoAct obtiene una comprensión completa de su entorno físico. Una vez que ha evaluado estas distancias, el modelo predice una secuencia de puntos de referencia de “espacio de imagen”, trazando una ruta potencial. Este plan espacial detallado se traduce luego en acciones físicas específicas, como ajustar con precisión un brazo robótico unos pocos centímetros o estirarlo.

Las pruebas comparativas internas realizadas por Ai2 revelaron que MolmoAct 7B logró una tasa de éxito de tareas del 72.1%, superando a modelos rivales de Google, Microsoft y Nvidia. Sorprendentemente, los investigadores de Ai2 señalaron que MolmoAct podría adaptarse a diversas configuraciones robóticas, desde brazos mecánicos hasta formas humanoides, con una mínima sintonización. Además, el modelo se lanza como código abierto bajo una licencia Apache 2.0, con sus conjuntos de datos de entrenamiento disponibles bajo CC BY-4.0, una medida elogiada por la comunidad de IA en general por fomentar el desarrollo colaborativo.

Aunque las capacidades de MolmoAct son ampliamente aplicables dondequiera que las máquinas necesiten interactuar con entornos físicos, Ai2 prevé su impacto principal en entornos domésticos. Este entorno, caracterizado por su irregularidad inherente y cambio constante, presenta los desafíos más significativos para la robótica, lo que lo convierte en un campo de pruebas ideal para el razonamiento espacial avanzado de MolmoAct.

La búsqueda de robots más inteligentes y conscientes del espacio ha sido durante mucho tiempo un sueño fundamental en la informática. Históricamente, los desarrolladores se enfrentaban a la ardua tarea de codificar explícitamente cada movimiento robótico, lo que conducía a sistemas rígidos e inflexibles. La llegada de los grandes modelos de lenguaje (LLM) ha revolucionado este paradigma, permitiendo a los robots determinar dinámicamente las acciones subsiguientes basándose en sus interacciones con los objetos. Por ejemplo, SayCan de Google Research ayuda a los robots a razonar sobre tareas utilizando un LLM, guiándolos para determinar la secuencia de movimientos necesarios para lograr un objetivo. De manera similar, OK-Robot de Meta y la Universidad de Nueva York utiliza modelos de lenguaje visual para la planificación de movimientos y la manipulación de objetos, mientras que Nvidia ha proclamado que la IA física es la “próxima gran tendencia”, lanzando modelos como Cosmos-Transfer1 para acelerar el entrenamiento robótico.

Alan Fern, profesor de la Facultad de Ingeniería de la Universidad Estatal de Oregón, considera la investigación de Ai2 como una “progresión natural en la mejora de los VLM para la robótica y el razonamiento físico”. Si bien reconoce que puede no ser “revolucionario”, enfatizó que es “un paso importante hacia el desarrollo de modelos de razonamiento físico 3D más capaces”. Fern destacó el enfoque de MolmoAct en la “comprensión de escenas verdaderamente 3D” como un cambio positivo significativo de la dependencia 2D, aunque advirtió que los puntos de referencia actuales siguen siendo “relativamente controlados y de juguete”, sin capturar completamente la complejidad del mundo real. A pesar de esto, expresó su entusiasmo por probar el modelo en sus propias tareas de razonamiento físico. Daniel Maturana, cofundador de la startup Gather AI, elogió la naturaleza de código abierto de los datos, señalando su valor para reducir los altos costos asociados con el desarrollo y entrenamiento de dichos modelos, proporcionando así una “base sólida sobre la cual construir” tanto para laboratorios académicos como para aficionados.