Google enthüllt Gemini 2.5 Deep Think AI: Bronze-Version mit Gold-Potenzial?

Venturebeat

Google hat Gemini 2.5 Deep Think, eine neue Iteration seines KI-Modells, das für verbesserte Schlussfolgerungen und komplexe Problemlösungen entwickelt wurde, offiziell auf den Markt gebracht. Diese öffentliche Veröffentlichung folgt auf eine fortgeschrittene Version des Modells, die im letzten Monat Schlagzeilen machte, weil sie bei der Internationalen Mathematik-Olympiade (IMO) eine Goldmedaille gewann – ein Novum für eine KI. Die nun der Öffentlichkeit zugängliche Version ist jedoch nicht das identische Goldmedaillen-Modell.

Laut dem Blogbeitrag von Google und Logan Kilpatrick, Produktleiter für Google AI Studio, ist das öffentlich veröffentlichte Modell eine “weniger leistungsstarke ‘Bronze’-Version”. Kilpatrick stellte in sozialen Medien klar, dass diese Variante “schneller und für den täglichen Gebrauch optimiert” sei, während das vollständige IMO-Goldmodell einer ausgewählten Gruppe von Mathematikern für weitere Tests seiner Fähigkeiten zur Verfügung gestellt werde.

Die Fähigkeiten von Gemini 2.5 Deep Think verstehen

Deep Think, das auf der Gemini-Familie großer Sprachmodelle (LLMs) aufbaut, führt neue Funktionen zur Bewältigung komplexer Probleme ein. Es verwendet “parallele Denktechniken”, um mehrere Ideen gleichzeitig zu erforschen, und nutzt Reinforcement Learning, um seine Schritt-für-Schritt-Problemlösungsfähigkeit im Laufe der Zeit zu stärken.

Das Modell ist für Anwendungsfälle konzipiert, die von einer längeren Deliberation profitieren, wie das Testen mathematischer Vermutungen, die Durchführung wissenschaftlicher Forschung, das Entwerfen von Algorithmen und die Verfeinerung kreativer Aufgaben wie Code und Design. Frühe Tester, darunter der Mathematiker Michel van Garrel, haben es verwendet, um ungelöste Probleme zu untersuchen und potenzielle Beweise zu generieren. Ethan Mollick, Professor an der Wharton School of Business und KI-Experte, bemerkte in sozialen Medien, dass Deep Think das erste Modell war, das erfolgreich eine 3D-Grafik als Reaktion auf eine komplexe Aufforderung generierte, die er zur Überprüfung der KI-Fähigkeiten verwendet, was seine fortschrittlichen Interpretations- und Kreativfähigkeiten demonstriert.

Leistung und Benchmarks

Deep Think zeigt eine starke Leistung in mehreren Schlüsselanwendungsbereichen:

  • Mathematik und Wissenschaft: Es kann das logische Denken für komplexe Beweise simulieren, Vermutungen erforschen und dichte wissenschaftliche Literatur interpretieren.

  • Codierung und Algorithmen-Design: Das Modell schneidet bei Aufgaben gut ab, die Leistungs-Kompromisse, Zeitkomplexität und mehrstufige Logik betreffen.

  • Kreative Entwicklung: In Designszenarien wie Voxel-Art oder Benutzeroberflächen-Erstellung zeigt Deep Think eine verbesserte iterative Verbesserung und Detailverbesserung.

Das Modell ist führend bei Benchmark-Evaluierungen, darunter LiveCodeBench V6 (für die Codierungsfähigkeit) und Humanity’s Last Exam (das Mathematik, Wissenschaft und logisches Denken abdeckt). Es übertraf Gemini 2.5 Pro und konkurrierende Modelle wie OpenAI’s GPT-4 und xAI’s Grok 4 in Kategorien wie Reasoning & Knowledge, Code-Generierung und IMO 2025 Mathematics um zweistellige Margen.

Deep Think vs. Gemini 2.5 Pro: Ein Vergleich

Während sowohl Deep Think als auch Gemini 2.5 Pro Teil der Gemini 2.5 Modellfamilie sind, positioniert Google Deep Think als eine leistungsfähigere und analytisch versiertere Variante, insbesondere für komplexes logisches Denken und mehrstufige Problemlösung. Diese Verbesserung resultiert aus der Verwendung von parallelem Denken und Reinforcement-Learning-Techniken, die es dem Modell ermöglichen, eine tiefere kognitive Deliberation zu simulieren.

Google gibt an, dass Deep Think besser darin ist, nuancierte Prompts zu verarbeiten, mehrere Hypothesen zu erforschen und verfeinerte Ausgaben zu produzieren. Dies wird durch direkte Vergleiche bei Aufgaben wie der Voxel-Art-Generierung unterstützt, bei denen Deep Think mehr Textur, strukturelle Genauigkeit und kompositorische Vielfalt hinzufügt als 2.5 Pro.

Obwohl Deep Think Gemini 2.5 Pro bei mehreren technischen Benchmarks in Bezug auf logisches Denken und Code-Generierung übertrifft, gehen diese Gewinne mit Kompromissen einher. Deep Think ist langsamer, erfordert eine längere “Denkzeit” und weist eine höhere Ablehnungsrate für harmlose Prompts auf – ein Bereich, den Google aktiv untersucht. Im Gegensatz dazu ist 2.5 Pro besser für Benutzer geeignet, die Geschwindigkeit und Reaktionsfähigkeit priorisieren, insbesondere für leichtere, allgemeine Aufgaben. Diese Differenzierung ermöglicht es Benutzern, basierend auf ihren Prioritäten zu wählen: 2.5 Pro für Geschwindigkeit und Flüssigkeit, oder Deep Think für Strenge und Reflexion.

Der IMO-Goldmedaillen-Erfolg

Im Juli erreichte eine fortgeschrittenere Version des Gemini Deep Think-Modells den offiziellen Goldmedaillenstatus bei der IMO 2025, dem weltweit prestigeträchtigsten Mathematikwettbewerb für Gymnasiasten. Dieses System löste fünf von sechs anspruchsvollen Problemen und wurde damit die erste KI, die eine Gold-Bewertung von der IMO erhielt. Demis Hassabis, CEO von Google DeepMind, kündigte den Erfolg an und erklärte, dass das Modell Probleme durchgehend in natürlicher Sprache gelöst habe, ohne dass eine Übersetzung in eine formale Programmiersyntax erforderlich war. Das IMO-Board bestätigte, dass das Modell 35 von möglichen 42 Punkten erzielte, weit über der Gold-Schwelle. Der Wettbewerbspräsident Gregor Dolinar beschrieb Deep Thinks Lösungen als klar, präzise und in vielen Fällen leichter nachvollziehbar als die menschlicher Konkurrenten. Es ist wichtig zu wiederholen, dass das der Öffentlichkeit zugängliche Gemini 2.5 Deep Think eine schnellere, weniger leistungsstarke Version ist, nicht das exakte Wettbewerbsmodell.

Zugriff auf Gemini 2.5 Deep Think

Derzeit ist Gemini 2.5 Deep Think ausschließlich in der Google Gemini Mobile App für iOS und Android für Benutzer verfügbar, die den Google AI Ultra Plan abonniert haben. Dieser Plan, Teil der Google One-Abonnementreihe, kostet 249,99 $ pro Monat, mit einem Einführungsangebot von 124,99 $ pro Monat für die ersten drei Monate für neue Abonnenten. Der AI Ultra Plan umfasst 30 TB Speicherplatz, Zugang zur Gemini App mit Deep Think und Veo 3 sowie Tools wie Flow und Whisk und 12.500 monatliche KI-Guthaben. Abonnenten können Deep Think innerhalb der Gemini App aktivieren, indem sie das 2.5 Pro Modell auswählen und die Option “Deep Think” umschalten. Es unterstützt eine feste Anzahl von Prompts pro Tag und ist in Funktionen wie Codeausführung und Google Search integriert, wodurch längere und detailliertere Ausgaben im Vergleich zu Standardversionen generiert werden. Der günstigere Google AI Pro Plan, der 19,99 $/Monat kostet, und der kostenlose Gemini AI-Dienst beinhalten keinen Zugang zu Deep Think. Deep Think wird in den kommenden Wochen auch “vertrauenswürdigen Testern” über die Gemini Application Programming Interface (API) zur Verfügung stehen.

Bedeutung für technische Entscheidungsträger in Unternehmen

Die Veröffentlichung von Gemini 2.5 Deep Think stellt die praktische Anwendung eines wichtigen Forschungsmeilensteins dar. Obwohl es derzeit über individuelle Benutzerkonten zugänglich ist, bietet es Unternehmen und Organisationen einen Einblick in die Fähigkeiten eines KI-Modells, das eine Mathematik-Olympiade-Medaille gewonnen hat. Für Forscher, die das vollständige IMO-Modell erhalten, bietet es Einblicke in die Zukunft der kollaborativen KI in der Mathematik. Für AI Ultra-Abonnenten bietet Deep Think einen мощigen Schritt in Richtung einer leistungsfähigeren und kontextsensitiveren KI-Unterstützung, die nun auf mobilen Geräten läuft.

Google enthüllt Gemini 2.5 Deep Think AI: Bronze-Version mit Gold-Potenzial? - OmegaNext KI-Nachrichten