Gemini 2.5 Deep Think : L'IA Parallèle Révolutionne la Créativité

Infoq

Google a dévoilé Gemini 2.5 Deep Think, un modèle d’intelligence artificielle sophistiqué conçu pour aborder des problèmes créatifs complexes grâce à une approche innovante qui exploite la pensée parallèle et un temps de calcul étendu. Disponible dans le cadre de l’abonnement Google AI Ultra, Deep Think est spécifiquement conçu pour les défis exigeant de la créativité, de la planification stratégique et une méthodologie méticuleuse, étape par étape. Cela inclut des tâches complexes telles que la conception et le développement itératifs, les découvertes scientifiques et mathématiques révolutionnaires, et la création d’algorithmes avancés.

L’itération actuellement disponible de Deep Think représente une optimisation et un raffinement significatifs du modèle qui a obtenu une performance de médaille d’or aux Olympiades Internationales de Mathématiques (OIM) de 2025. Lors de cet événement très compétitif, une variante avancée de Gemini Deep Think a résolu sans faute cinq des six problèmes difficiles, accumulant un remarquable total de 35 points — un score indicatif de l’excellence de la médaille d’or. Bien que cette version spécifique à la compétition puisse consacrer des heures au raisonnement de problèmes complexes, la nouvelle version publique échange un certain degré de profondeur de raisonnement contre une vitesse accrue, la rendant plus pratique pour les applications quotidiennes.

Cette avancée marque un bond substantiel pour les efforts d’IA de Google par rapport à leur performance aux OIM de 2024. L’année précédente, des modèles comme AlphaProof et AlphaGeometry nécessitaient que des experts humains traduisent d’abord les problèmes du langage naturel vers des langages spécialisés spécifiques au domaine, et même alors, prenaient jusqu’à trois jours pour générer des solutions. Deep Think, en revanche, simplifie considérablement ce processus.

À la base, Gemini Deep Think fonctionne en générant simultanément plusieurs solutions potentielles à un problème. Tout au long de son processus de raisonnement, il révise et combine continuellement ces alternatives, convergeant itérativement vers la réponse la plus optimale. Cette exploration et ce raffinement parallèles exigent une fenêtre de temps de raisonnement significativement étendue, rendant le modèle moins adapté aux applications instantanées et interactives telles que le chat en temps réel. Google reconnaît que les utilisateurs peuvent occasionnellement rencontrer des temps de réponse plus lents ou des problèmes de délai d’attente en raison de cette exigence computationnelle intensive.

Ce qui distingue davantage Deep Think des autres modèles de la famille Gemini est sa méthodologie d’entraînement unique. Il intègre de nouvelles techniques d’apprentissage par renforcement qui encouragent activement le modèle à utiliser ces chemins de raisonnement prolongés, lui permettant de tester et de valider de nombreuses hypothèses simultanément. De plus, le modèle a été entraîné avec accès à un corpus méticuleusement organisé de solutions de haute qualité pour des problèmes mathématiques complexes, améliorant encore ses capacités de résolution de problèmes.

Google affirme que Gemini 2.5 Deep Think établit de nouvelles références, atteignant des performances de pointe sur plusieurs évaluations critiques, y compris LiveCodeBench V6 et Humanity’s Last Exam. Cependant, les premiers utilisateurs ont noté une limitation pratique significative : le nombre restreint de requêtes disponibles même pour les utilisateurs payants. Initialement plafonnée à cinq par jour, cette limite a ensuite été doublée à dix. Certains observateurs interprètent cette restriction comme une forte indication du coût de calcul substantiel impliqué dans l’exécution du modèle, potentiellement équivalent à l’exploitation d’un grand cluster de modèles Gemini Pro en parallèle.

Comme ses homologues de la série Gemini, Deep Think est construit sur une architecture de mélange d’experts (MoE) clairsemée. Il dispose également d’un support multimodal natif, capable de traiter les entrées texte, visuelles et audio de manière transparente. Le modèle dispose d’une impressionnante fenêtre de contexte d’entrée de 1 million de jetons et d’une fenêtre de sortie de 192 000 jetons, ce qui témoigne de sa capacité à gérer de vastes quantités d’informations. Au-delà de la version optimisée offerte aux abonnés AI Ultra, Google a également mis la variante de compétition à la disposition de la communauté de recherche au sens large, favorisant ainsi l’innovation et l’étude dans le domaine.