Googles Gemini mit „Deep Think“: Leistungssprung, Sicherheitsfragen

Decoder

Google hat „Deep Think“ vorgestellt, ein bedeutendes Upgrade für sein Gemini KI-Modell, das darauf ausgelegt ist, komplexe Probleme zu bewältigen, indem es der künstlichen Intelligenz mehr „Denkzeit“ einräumt. Die neue Funktion ist jetzt für Google AI Ultra-Abonnenten innerhalb der Gemini-Anwendung zugänglich. Google erklärt, dass diese Veröffentlichung, die sowohl Tester-Feedback als auch aktuelle Forschungsergebnisse berücksichtigt, einen klaren Fortschritt gegenüber der Version darstellt, die Anfang dieses Jahres auf der I/O gezeigt wurde.

„Deep Think“ kann innerhalb der App aktiviert werden, wobei die Nutzung einer täglichen Anfragelimitation unterliegt. Es wurde entwickelt, um Tools wie Code-Ausführung und Google-Suche automatisch zu nutzen, wodurch es wesentlich längere und detailliertere Antworten als frühere Iterationen liefern kann.

Der Kern der verbesserten Fähigkeit von „Deep Think“ liegt in dem, was Google als „parallele Denktechniken“ beschreibt. Dieser Ansatz zielt darauf ab, nachzuahmen, wie Menschen schwierige Probleme angehen: indem sie gleichzeitig mehrere Ideen generieren, bewerten und kombinieren, um die optimale Lösung zu finden. Um dies zu erleichtern, wird dem Modell zusätzliche „Inferenzzeit“ – im Wesentlichen mehr Verarbeitungszeit – zugewiesen, bevor es seine Antwort liefert. Während ähnliche experimentelle Methoden wie „Self Consistency“ und „Tree-of-Thought“ bereits existierten, integriert „Deep Think“ neue Techniken des verstärkenden Lernens, um sicherzustellen, dass diese erweiterten Denkpfade produktiv genutzt werden, mit dem Ziel, seine Problemlösungsfähigkeit im Laufe der Zeit zu verbessern. Das zugrunde liegende Gemini 2.5-Modell verwendet eine Sparse Mixture-of-Experts (MoE)-Architektur und unterstützt ein erhebliches Kontextfenster von bis zu einer Million Tokens für die Eingabe und 192.000 Tokens für die Ausgabe.

Google hebt die besondere Stärke von „Deep Think“ bei Aufgaben hervor, die Kreativität und strategische Planung erfordern. Dazu gehören die iterative Verbesserung des Webdesigns, die Unterstützung fortgeschrittener wissenschaftlicher und mathematischer Forschung sowie die Lösung komplexer Programmierherausforderungen. In Benchmark-Tests hat Gemini 2.5 „Deep Think“ eine robuste Leistung gezeigt, mit 87,6% bei LiveCodeBench V6 für die Codegenerierung und 34,8% bei „Humanity’s Last Exam“ für Wissen und logisches Denken. Diese Ergebnisse übertreffen Berichten zufolge Rivalen wie OpenAI o3 und Grok 4 in Szenarien, in denen externe Tools nicht verwendet werden.

Bemerkenswerterweise handelt es sich bei dieser öffentlichen Veröffentlichung um eine modifizierte Version des KI-Modells, das eine Goldmedaille bei der Internationalen Mathematik-Olympiade (IMO) gewonnen hat. Während die IMO-Gewinnervariante Stunden benötigte, um ihre Probleme zu lösen, ist die öffentliche Version für Geschwindigkeit und den täglichen Gebrauch optimiert und erreicht immer noch eine Bronze-Medaillen-Leistung beim IMO-Benchmark 2025. Das vollständige Gold-Level-Modell bleibt ausschließlich einer ausgewählten Gruppe von Mathematikern und Forschern vorbehalten.

Dieser Kapazitätssprung bringt jedoch auch neue Sicherheitsaspekte mit sich, wie Google anerkennt. Eine umfassende Sicherheitsüberprüfung, die im Rahmen des „Frontier Safety Framework“ (FSF) aufgrund „außergewöhnlicher Unterschiede“ zu früheren Modellen durchgeführt wurde, ergab, dass „Deep Think“ in bestimmten Risikobereichen eine kritische Schwelle überschritten hat. Speziell in den Bereichen Chemie, Biologie, Radiologie und Nuklear (CBRN) hat das Modell die „Frühwarnschwelle“ für „Uplift Level 1“ erreicht. Dies deutet darauf hin, dass die KI potenziell ausreichend technisches Wissen bereitstellen könnte, um Personen oder Gruppen mit geringen Ressourcen erheblich bei der Entwicklung von Massenvernichtungswaffen zu unterstützen. Google evaluiert diese Risiken weiterhin und hat bereits Vorsichtsmaßnahmen implementiert.

„Deep Think“ erfüllt auch die gleiche Frühwarnschwelle für Cybersicherheit, die zuvor bei Gemini 2.5 Pro identifiziert wurde. Obwohl seine Leistung bei Cybersicherheitsaufgaben verbessert wurde, steht es weiterhin vor Herausforderungen bei den anspruchsvollsten realen Szenarien.

Als Reaktion auf diese Erkenntnisse gibt Google an, mehrere Schutzebenen implementiert zu haben. Diese Maßnahmen umfassen das Filtern gefährlicher Ausgaben, mehrstufige Überwachung, das Blockieren missbräuchlicher Konten und laufende „Red-Teaming“-Übungen, um die Schutzsysteme rigoros zu testen.