Genie 3 de DeepMind: Un Paso Clave hacia la IAG con Modelos de Mundo en Tiempo Real

Techcrunch

Google DeepMind ha presentado Genie 3, su último “modelo de mundo fundacional”, que el laboratorio de IA postula como un avance significativo hacia el logro de la inteligencia artificial general (IAG), o inteligencia a nivel humano.

Shlomi Fruchter, director de investigación en DeepMind, declaró durante una rueda de prensa que Genie 3 es el “primer modelo de mundo de propósito general interactivo en tiempo real”. Enfatizó su distanciamiento de modelos anteriores más especializados, destacando su capacidad para generar entornos diversos, que van desde fotorrealistas hasta mundos completamente imaginarios.

Genie 3, actualmente en vista previa de investigación y no accesible al público, integra capacidades de sus predecesores. Se basa en Genie 2, que podía generar entornos novedosos para agentes de IA, y en Veo 3, el modelo avanzado de generación de video de DeepMind, conocido por su profunda comprensión de la física.

Utilizando una simple instrucción de texto, Genie 3 puede crear entornos 3D interactivos que se ejecutan durante varios minutos, un salto significativo desde los 10 a 20 segundos que se podían lograr con Genie 2. Estas simulaciones se renderizan a una resolución de 720p y 24 fotogramas por segundo. Una característica notable son los “eventos de mundo programables”, que permiten a los usuarios alterar dinámicamente el entorno generado mediante comandos de texto.

Fundamentalmente, las simulaciones de Genie 3 mantienen la consistencia física a lo largo del tiempo. Esto se atribuye a la capacidad emergente del modelo de “recordar” lo que ha generado previamente, una capacidad que los investigadores de DeepMind no programaron explícitamente. Esta comprensión autoaprendida de la física es fundamental para su diseño; a diferencia de los sistemas que dependen de motores de física codificados, Genie 3 aprende cómo los objetos se mueven, caen e interactúan observando sus propias secuencias generadas y razonando a través de horizontes temporales extendidos. Fruchter explicó que el modelo es “autorregresivo”, generando un fotograma a la vez y referenciando fotogramas anteriores para predecir eventos subsiguientes, lo cual es un aspecto fundamental de su arquitectura. Esta memoria fomenta la consistencia que le permite desarrollar una comprensión intuitiva de las leyes físicas, similar a la comprensión humana.

Aunque Genie 3 promete aplicaciones en educación, juegos y prototipos creativos, su importancia principal radica en el entrenamiento de agentes de IA para tareas de propósito general, un componente crítico para alcanzar la IAG. Jack Parker-Holder, científico investigador del equipo de apertura de DeepMind, destacó que los modelos de mundo son esenciales para los agentes corporizados, donde simular escenarios complejos del mundo real plantea un desafío considerable.

La capacidad de generar entornos coherentes y físicamente plausibles convierte a Genie 3 en un campo de entrenamiento ideal. Puede proporcionar mundos infinitos y variados para que los agentes exploren, impulsándolos a adaptarse, esforzarse y aprender a través de la experiencia, reflejando los procesos de aprendizaje humano. Esto permite a los agentes ir más allá de los simples comportamientos de entrada-reacción, fomentando capacidades como la planificación, la exploración y el aprendizaje por ensayo y error, vitales para la inteligencia autónoma y corporizada.

Estas capacidades incluyen la planificación, la exploración y el aprendizaje por ensayo y error, vitales para la inteligencia autónoma y corporizada.

A pesar de estos avances, Genie 3 aún enfrenta limitaciones. El rango de acciones que un agente puede realizar dentro de estos mundos simulados sigue siendo restringido, y si bien los “eventos de mundo programables” permiten intervenciones ambientales, estas no son necesariamente iniciadas por el agente mismo. Modelar con precisión interacciones complejas entre múltiples agentes independientes en un entorno compartido también presenta un desafío. Además, el sistema actual solo admite unos pocos minutos de interacción continua, mientras que se necesitarían horas para un entrenamiento completo del agente.

Sin embargo, Genie 3 representa un paso adelante convincente. Parker-Holder estableció un paralelo con el momento del “Movimiento 37” del partido de Go de 2016, donde AlphaGo de DeepMind realizó un movimiento poco convencional y brillante, simbolizando la capacidad de la IA para estrategias novedosas. Sugirió que Genie 3 podría de manera similar marcar el comienzo de una nueva era para la IA corporizada, permitiendo a los agentes realizar acciones verdaderamente novedosas dentro de mundos simulados.