DeepMind stellt Genie 3 vor: Text-zu-3D-interaktives Weltmodell

Infoq

DeepMind hat Genie 3 vorgestellt, die neueste Iteration seines innovativen Frameworks, das interaktive 3D-Umgebungen direkt aus Textaufforderungen generieren kann. Dieses fortschrittliche System rendert Szenen in Echtzeit mit etwa 24 Bildern pro Sekunde in 720p-Auflösung, wodurch Benutzer über mehrere Minuten hinweg kontinuierlich in diesen digitalen Welten navigieren und interagieren können, ohne dass ein Szenen-Reset erforderlich ist. Eine signifikante Verbesserung gegenüber früheren Versionen ist seine ausgeklügelte Objektpermanenz: Jede Änderung an der Umgebung, wie das Bewegen, Entfernen oder Verändern von Objekten, bleibt über die Zeit bestehen. Darüber hinaus behält das Modell eine konsistente Physik durch gelernte Weltdynamiken bei, anstatt sich auf ein separates Speichermodul zu verlassen.

Genie 3 integriert nahtlos die Funktionen eines Inhaltserstellungssystems und einer Simulationsplattform. Es kann einzigartige Umgebungen aus natürlichsprachlichen Beschreibungen erzeugen und gleichzeitig als Testumgebung für autonome Agenten dienen. Seine bemerkenswerte Flexibilität ermöglicht es, eine Vielzahl von Einstellungen zu erschaffen, von industriellen Innenlayouts über weitläufige natürliche Außenlandschaften bis hin zu komplexen Hindernisparcours, alles rein textbasiert generiert. Diese Fähigkeit macht Genie 3 besonders gut geeignet für das schnelle Prototyping von Trainingsszenarien, insbesondere in den Bereichen Robotik und Embodied AI, wo die Entwicklung verallgemeinerbarer Fähigkeiten vielfältige und dynamische virtuelle Welten erfordert.

Diese prozedurale Generierungsfähigkeit hebt Genie 3 von anderen prominenten generativen KI-Systemen ab. OpenAI’s Sora zum Beispiel ist hervorragend darin, hochrealistische Videos aus Textbeschreibungen zu erzeugen, ist aber auf Clips fester Länge beschränkt und unterstützt keine Echtzeit-Interaktion. Metas Habitat konzentriert sich hauptsächlich auf die Forschung im Bereich Embodied AI und bietet hochauflösende 3D-Räume für Agenten, um Navigations- und Manipulationsaufgaben auszuführen; Habitat erfordert jedoch vordefinierte Szenen und Assets, anstatt sie prozedural aus Aufforderungen zu generieren. Ähnlich bietet NVIDIAs Isaac Sim eine fortschrittliche Robotersimulation mit detaillierter Sensormodellierung und Physik, ist aber ebenfalls auf manuell erstellte oder importierte Umgebungen angewiesen. Selbst MineDojo, das auf den Mechaniken von Minecraft basiert, ermöglicht es KI-Agenten, in einer prozedural generierten Welt zu agieren, doch seine blockbasierten Grafiken und inhärenten Spielmechaniken schränken seinen Realismus und seine physikalische Genauigkeit ein.

Während traditionelle Simulations-Engines wie Unreal Engine oder Unity umfangreiche Tools zur Erstellung benutzerdefinierter Umgebungen bieten, erfordern sie typischerweise umfangreiche Asset-Bibliotheken und eine akribische manuelle Szenenmontage. Genie 3 umgeht dies, indem es Umgebungen bei Bedarf generiert und so einen optimierten Ansatz bietet. Aktuelle Einschränkungen umfassen jedoch die Laufzeitdauer und die Gesamtkomplexität der Umgebungen, die es im Vergleich zu den in speziellen Spiele-Engines sorgfältig erstellten Umgebungen generieren kann.

Frühe Reaktionen aus der Online-Community unterstreichen die futuristische Anziehungskraft der Technologie. Benutzer auf Reddit’s r/singularity drückten Erstaunen aus, wobei ein Kommentator bemerkte, dass das Sehen von Genie 3 sich wie „reine Science-Fiction“ anfühlen würde, ähnlich „den Dingen aus Star Trek“. Ein anderer Benutzer sah sein unmittelbares Potenzial und erklärte: „Jetzt das an VR anschließen, das ist im Grunde das Metaversum.“ Diese Gefühle verdeutlichen die tiefgreifenden Auswirkungen und die fantasievollen Möglichkeiten, die Genie 3 im Bereich interaktiver digitaler Erlebnisse erschließen könnte.