Google DeepMinds Genie 3: KI-Roboter lernen in virtuellen Welten

Theguardian

Google DeepMind hat Genie 3 vorgestellt, ein neues „Weltmodell“, das realistische virtuelle Umgebungen zum Trainieren von Systemen der künstlichen Intelligenz generieren kann. Diese Entwicklung stellt laut dem Tech-Giganten einen bedeutenden Schritt zur Erreichung der Künstlichen Allgemeinen Intelligenz (AGI) dar, einem hypothetischen Zustand, in dem KI eine Vielzahl von Aufgaben auf menschlichem Niveau ausführen kann, anstatt auf spezialisierte Funktionen beschränkt zu sein.

Das Genie 3-Modell ermöglicht es KI-Systemen, in überzeugenden Simulationen der realen Welt zu interagieren. Google schlägt vor, dass es beispielsweise beim Training von Robotern und autonomen Fahrzeugen von entscheidender Bedeutung sein könnte, indem es ihnen ermöglicht, in hochrealistischen virtuellen Lagern zu navigieren und zu lernen. DeepMind, Googles KI-Abteilung, betont, dass solche Weltmodelle ein entscheidender Bestandteil für die Entwicklung von KI-Agenten sind – Systeme, die darauf ausgelegt sind, Aufgaben autonom auszuführen. Das Unternehmen erwartet, dass diese Technologie eine kritische Rolle spielen wird, wenn KI-Agenten immer häufiger werden und das Unternehmen Fortschritte in Richtung AGI macht.

Genie 3 erstellt diese simulierten Szenarien sofort aus Textaufforderungen. Benutzer können die virtuelle Umgebung auch schnell mit weiteren Textbefehlen modifizieren; zum Beispiel eine Herde Hirsche auf eine Skipiste bringen. Über das Training von KI hinaus bemerkt Google, dass Genie 3 auch Menschen ermöglichen könnte, verschiedene Simulationen zum Training oder zur Erkundung zu erleben, wie virtuelles Skifahren oder Spaziergänge um einen Bergsee.

Obwohl Google Journalisten virtuelle Ski- und Lagerszenarien demonstrierte, erklärte das Unternehmen, dass Genie 3 noch nicht für eine vollständige öffentliche Veröffentlichung bereit sei und keinen Starttermin nannte, unter Berufung auf eine Reihe von Einschränkungen. Die Qualität dieser Simulationen ist Berichten zufolge vergleichbar mit Googles neuestem Videoerstellungsmodell Veo 3, aber die Simulationen von Genie 3 können Minuten dauern, deutlich länger als Veo 3s Acht-Sekunden-Clips. Diese Ankündigung erfolgt inmitten eines eskalierenden Wettbewerbs im KI-Sektor, nachdem OpenAI-CEO Sam Altman kürzlich Andeutungen zu ihrem kommenden GPT-5-Modell gemacht hatte.

Während Diskussionen über AGI oft ihren potenziellen Einfluss auf Büroarbeitsplätze in den Mittelpunkt stellen, da autonome Systeme verschiedene Rollen übernehmen, betrachtet Google Weltmodelle in erster Linie als grundlegende Technologie zur Weiterentwicklung von Robotik und autonomen Fahrzeugen. Zum Beispiel könnte ein simuliertes Lager, komplett mit realistischer Physik und menschlichen Interaktionen, einen Roboter effektiv trainieren, sodass er seine Aktionen in einer sicheren, kontrollierten Umgebung lernen und verfeinern kann. Google hat auch Sima entwickelt, einen virtuellen Agenten, der Aufgaben in Videospielumgebungen ausführen kann, obwohl er wie Genie 3 nicht öffentlich verfügbar ist.

Experten auf diesem Gebiet unterstreichen die Bedeutung solcher Modelle. Professor Subramanian Ramamoorthy, Vorsitzender für Robotik-Lernen und Autonomie an der University of Edinburgh, beschrieb Weltmodelle als „extrem wichtig“ für die Roboterentwicklung. Er erklärte: „Um eine flexible Entscheidungsfindung zu erreichen, müssen Roboter die Konsequenzen verschiedener Aktionen antizipieren, um die beste auszuwählen, die in der physischen Welt ausgeführt werden soll.“

Andrew Rogoyski vom Institute for People-Centred AI an der University of Surrey fügte hinzu, dass Weltmodelle auch großen Sprachmodellen (LLMs), der Technologie, die Chatbots wie ChatGPT zugrunde liegt, zugutekommen könnten. Er glaubt, dass die Bereitstellung einer „körperlosen KI mit der Fähigkeit, verkörpert zu werden, wenn auch virtuell“, es ihr ermöglicht, „die Welt oder eine Welt zu erkunden – und infolgedessen an Fähigkeiten zu wachsen“. Diese virtuelle physische Erkundung, so schlägt er vor, würde eine entscheidende Dimension zur Schaffung leistungsfähigerer und intelligenterer KIs hinzufügen und deren bestehendes Training auf riesigen Mengen von Internetdaten ergänzen. Google-Forscher stellten zuvor fest, dass LLMs zwar hervorragend planen können, ihnen aber oft die Fähigkeit fehlt, im Namen eines Menschen zu handeln, eine Lücke, die Weltmodelle schließen könnten.

Google DeepMinds Genie 3: KI-Roboter lernen in virtuellen Welten - OmegaNext KI-Nachrichten