DeepMind's Genie 3: Nuevo Modelo Mundial Apunta a la IGA

Google DeepMind ha desvelado Genie 3, su último modelo mundial fundamental, que el laboratorio de IA postula como un avance crucial hacia el logro de la inteligencia general artificial (IGA), o inteligencia similar a la humana. Este modelo está diseñado para entrenar agentes de IA de propósito general dentro de entornos simulados.

“Genie 3 es el primer modelo mundial de propósito general interactivo en tiempo real”, afirmó Shlomi Fruchter, director de investigación en DeepMind, durante una reciente rueda de prensa. Hizo hincapié en su diferencia con los modelos mundiales estrechos anteriores, destacando su capacidad para generar entornos diversos, desde fotorrealistas hasta puramente imaginarios.

Actualmente en vista previa de investigación y no disponible públicamente, Genie 3 se basa en sus predecesores, incluyendo Genie 2, que podía generar nuevos entornos para agentes, y el último modelo de generación de video de DeepMind, Veo 3, conocido por su profunda comprensión de la física.

Un salto significativo en capacidad, Genie 3 puede generar varios minutos de entornos 3D interactivos a resolución 720p y 24 fotogramas por segundo a partir de una simple indicación de texto. Esto es una mejora sustancial con respecto a la salida de 10 a 20 segundos de Genie 2. El modelo también introduce “eventos mundiales programables”, lo que permite a los usuarios modificar el mundo generado a través de comandos de texto.

Fundamentalmente, las simulaciones de Genie 3 mantienen la consistencia física a lo largo del tiempo. DeepMind destaca que esta capacidad, donde el modelo “recuerda” lo que ha generado previamente, no fue programada explícitamente, sino que surgió de su diseño.

Fruchter sugirió que, si bien Genie 3 promete aplicaciones en educación, juegos o prototipos creativos, su impacto principal será en el entrenamiento de agentes para tareas de propósito general, un paso que considera esencial para la IGA. Jack Parker-Holder, científico de investigación del equipo de apertura de DeepMind, se hizo eco de este sentimiento: “Creemos que los modelos mundiales son clave en el camino hacia la IGA, específicamente para agentes encarnados, donde simular escenarios del mundo real es particularmente desafiante.”

Genie 3 aborda este desafío al no depender de un motor de física codificado de forma rígida. En cambio, DeepMind explica que el modelo se enseña a sí mismo cómo funciona el mundo —cómo se mueven, caen e interactúan los objetos— al recordar sus secuencias generadas y razonar durante horizontes de tiempo extendidos. Fruchter explicó: “El modelo es autorregresivo, lo que significa que genera un fotograma a la vez. Tiene que mirar hacia atrás a lo que se generó antes para decidir qué va a pasar después. Esa es una parte clave de la arquitectura.” Esta memoria inherente permite a Genie 3 desarrollar una comprensión intuitiva de la física, similar a la comprensión humana de la dinámica del mundo real.

DeepMind también cree que Genie 3 puede impulsar a los agentes de IA a aprender de sus propias experiencias, reflejando el aprendizaje humano. Como demostración, DeepMind probó Genie 3 con una versión reciente de su Agente Multi-Mundo Escalable e Instructivo (SIMA). En un almacén simulado, a SIMA se le asignaron objetivos como “acercarse al compactador de basura verde brillante” o “caminar hacia el montacargas rojo empaquetado”. Según Parker-Holder, el agente SIMA logró con éxito estos objetivos al recibir acciones del agente, observar el mundo simulado y tomar acciones dentro de él, con Genie 3 manteniendo la consistencia en todo momento.

A pesar de sus avances, Genie 3 tiene limitaciones. Si bien los investigadores afirman su comprensión de la física, una demostración de un esquiador, por ejemplo, no representó con precisión el movimiento de la nieve. El rango de acciones que un agente puede tomar sigue siendo limitado, y si bien los eventos mundiales programables ofrecen intervenciones ambientales, estos no son necesariamente realizados por el propio agente. Modelar interacciones complejas entre múltiples agentes independientes en un entorno compartido también resulta desafiante. Además, Genie 3 actualmente solo soporta unos pocos minutos de interacción continua, mientras que se necesitarían horas para un entrenamiento exhaustivo de agentes.

Sin embargo, Genie 3 representa un paso adelante convincente. Su objetivo es permitir que los agentes vayan más allá de las reacciones simples, fomentando capacidades como la planificación, la exploración, la búsqueda de incertidumbre y la mejora a través del ensayo y error. Este aprendizaje autoimpulsado y encarnado se considera ampliamente crucial para el progreso hacia la inteligencia general. Parker-Holder concluyó: “Todavía no hemos tenido un momento ‘Movimiento 37’ para agentes encarnados, donde realmente puedan tomar acciones novedosas en el mundo real.” Hizo referencia al momento crucial en el partido de Go de 2016 donde AlphaGo de DeepMind hizo un movimiento poco convencional y brillante, simbolizando la capacidad de la IA para una estrategia novedosa. “Pero ahora, potencialmente podemos marcar el comienzo de una nueva era”, añadió.

DeepMind's Genie 3: Nuevo Modelo Mundial Apunta a la IGA

Artículos Relacionados

Construyendo Agentes de IA Autoadaptables con Google Gemini y SAGE

Genie 3: La IA de DeepMind crea mundos 3D interactivos y consistentes

Google DeepMind lanza Genie 3: El 'Modelo Mundial' que entrena robots IA