DeepMind Genie 3: El Modelo de Mundo IA Interactivo en Tiempo Real Revelado

Arstechnica

DeepMind, la división de investigación de inteligencia artificial de Google, ha presentado Genie 3, un nuevo “modelo de mundo” capaz de generar simulaciones interactivas en tiempo real a partir de una simple indicación o imagen. Este lanzamiento llega solo siete meses después de la introducción de su predecesor, Genie 2, destacando el rápido ritmo de desarrollo de los modelos de IA fundamentales.

Genie 3 permite a los usuarios crear entornos dinámicos generados continuamente que pueden ser alterados sobre la marcha. DeepMind se refiere a estas modificaciones como “eventos programables”, lo que permite a los usuarios añadir o cambiar objetos, ajustar las condiciones climáticas o introducir nuevos personajes dentro del mundo simulado. Si bien esta capacidad tiene potencial para la industria del juego, ofreciendo nuevas vías para la jugabilidad dinámica y ayudando a los desarrolladores a validar conceptos o diseños de niveles, algunos expertos de la industria han expresado escepticismo sobre la utilidad inmediata de tales herramientas.

Más allá de su aplicación aparente en la creación de juegos, DeepMind enfatiza el papel de Genie 3 como una herramienta de investigación crucial. Los juegos han servido durante mucho tiempo como entornos vitales para el desarrollo de la IA debido a su naturaleza desafiante e interactiva y al progreso medible, como lo demostró el uso previo de DeepMind de juegos como Go y StarCraft para avanzar en las capacidades de la IA. Los modelos de mundo, al generar entornos interactivos fotograma a fotograma, elevan este enfoque. Ofrecen una oportunidad única para refinar el comportamiento de los modelos de IA, incluidos los “agentes encarnados”, en situaciones que imitan escenarios del mundo real. Un desafío significativo en la búsqueda de la inteligencia artificial general (AGI) es la escasez de datos de entrenamiento diversos y fiables. A medida que los investigadores recurren cada vez más a los datos sintéticos, DeepMind cree que los modelos de mundo como Genie 3 podrían ser instrumentales, proporcionando a los agentes de IA acceso a mundos interactivos prácticamente ilimitados para el entrenamiento.

Genie 3 representa un notable avance respecto a Genie 2, particularmente en fidelidad visual y rendimiento en tiempo real. Los usuarios pueden navegar por estos mundos simulados utilizando la entrada del teclado, experimentándolos en una resolución de 720p a 24 fotogramas por segundo. Una mejora clave es la memoria mejorada de Genie 3. Mientras que Genie 2 tenía dificultades con la consistencia visual más allá de aproximadamente 10 segundos, similar a un chatbot que pierde el contexto, Genie 3 mantiene los elementos visuales consistentemente durante varios minutos, expandiendo significativamente el alcance de sus simulaciones.

A pesar de estos avances, Genie 3 no está exento de limitaciones. DeepMind reconoce que, si bien la consistencia de varios minutos es un paso significativo, un modelo de mundo ideal mantendría la consistencia durante horas. El modelo tampoco puede simular actualmente ubicaciones del mundo real, generando solo entornos únicos y no deterministas. En consecuencia, es susceptible a las típicas “alucinaciones” de la IA, produciendo ocasionalmente elementos visuales incorrectos. Por ejemplo, los matices de la locomoción humana a veces pueden distorsionarse, lo que lleva a figuras que parecen caminar de forma antinatural, y el texto dentro de estos mundos generados por IA a menudo aparece desordenado a menos que se especifique explícitamente en la indicación.

Además, la integración de agentes de IA en estos modelos de mundo sigue siendo limitada. Si bien los entornos pueden crearse con condiciones realistas, los agentes actualmente carecen del razonamiento de alto nivel requerido para modificar la simulación más allá del movimiento simple. DeepMind todavía está explorando métodos para que múltiples agentes de IA interactúen dentro de un entorno compartido.

Las demandas computacionales de Genie 3 son sustanciales, ya que renderiza eficazmente videos interactivos largos a alta velocidad. Si bien DeepMind no ha revelado detalles específicos sobre el consumo de energía, el acceso restringido actual del modelo subraya sus intensivos requisitos de procesamiento. Genie 3 se posiciona como una herramienta de investigación, con acceso inicial otorgado a un grupo selecto de expertos e investigadores para ayudar en su perfeccionamiento. DeepMind, sin embargo, ha indicado planes para ampliar eventualmente el acceso a sus modelos de mundo Genie a una audiencia más amplia.