Google Gemini s'améliore avec Deep Think, mais la sécurité inquiète
Google a dévoilé “Deep Think”, une mise à niveau significative de son modèle d’IA Gemini, conçue pour aborder des problèmes complexes en accordant à l’intelligence artificielle plus de “temps de réflexion”. La nouvelle fonctionnalité est désormais accessible aux abonnés de Google AI Ultra au sein de l’application Gemini. Google déclare que cette version, qui intègre les retours des testeurs et les recherches récentes, représente une nette avancée par rapport à la version présentée lors de l’I/O plus tôt cette année.
“Deep Think” peut être activé dans l’application, bien que son utilisation soit soumise à une limite quotidienne de requêtes. Il est conçu pour exploiter automatiquement des outils tels que l’exécution de code et la recherche Google, lui permettant de produire des réponses considérablement plus longues et plus détaillées que les itérations précédentes.
Le cœur de la capacité améliorée de “Deep Think” réside dans ce que Google décrit comme des techniques de “pensée parallèle”. Cette approche vise à émuler la façon dont les humains abordent les problèmes difficiles : en générant, évaluant et combinant simultanément plusieurs idées pour arriver à la solution optimale. Pour faciliter cela, le modèle se voit allouer un “temps d’inférence” supplémentaire – essentiellement, plus de temps de traitement – avant de livrer sa réponse. Alors que des méthodes expérimentales similaires comme “Self Consistency” et “Tree-of-Thought” existaient, “Deep Think” intègre de nouvelles techniques d’apprentissage par renforcement pour s’assurer que ces chemins de raisonnement étendus sont utilisés de manière productive, visant à améliorer sa capacité de résolution de problèmes au fil du temps. Le modèle sous-jacent Gemini 2.5 utilise une architecture de mélange d’experts épars (Sparse Mixture-of-Experts, MoE) et prend en charge une fenêtre de contexte substantielle allant jusqu’à un million de jetons pour l’entrée et 192 000 jetons pour la sortie.
Google souligne la force particulière de “Deep Think” dans les tâches exigeant de la créativité et de la planification stratégique. Cela inclut l’amélioration itérative de la conception web, le soutien à la recherche scientifique et mathématique avancée, et la résolution de défis de programmation complexes. Lors des tests de référence, Gemini 2.5 “Deep Think” a démontré des performances robustes, obtenant un score de 87,6 % sur LiveCodeBench V6 pour la génération de code et de 34,8 % sur “Humanity’s Last Exam” pour la connaissance et le raisonnement logique. Ces résultats dépassent, selon les rapports, des rivaux comme OpenAI o3 et Grok 4 dans les scénarios où les outils externes ne sont pas utilisés.
Notamment, cette version publique est une version modifiée du modèle d’IA qui a remporté une médaille d’or aux Olympiades Internationales de Mathématiques (IMO). Bien que la variante gagnante de l’IMO ait nécessité des heures pour résoudre ses problèmes, la version publique est optimisée pour la vitesse et l’utilisation quotidienne, parvenant tout de même à obtenir une performance de médaille de bronze sur le benchmark IMO 2025. Le modèle complet, de niveau or, reste exclusivement disponible pour un groupe sélectionné de mathématiciens et de chercheurs.
Cependant, ce bond en avant en matière de capacités soulève également de nouvelles considérations de sécurité, comme le reconnaît Google. Un examen de sécurité complet, mené dans le cadre du “Cadre de Sécurité Frontalière” (Frontier Safety Framework, FSF) en raison de “différences exceptionnelles” par rapport aux modèles antérieurs, a révélé que “Deep Think” a franchi un seuil critique dans certaines zones de risque. Plus précisément, dans les domaines Chimique, Biologique, Radiologique et Nucléaire (CBRN), le modèle a atteint le “seuil d’alerte précoce” pour le “Niveau d’Élévation 1” (Uplift Level 1). Cela indique que l’IA pourrait potentiellement fournir des connaissances techniques suffisantes pour aider considérablement des individus ou des groupes disposant de peu de ressources à développer des armes de destruction massive. Google continue d’évaluer ces risques et a déjà mis en œuvre des mesures de précaution.
“Deep Think” atteint également le même seuil d’alerte précoce pour la cybersécurité qui avait été précédemment identifié avec Gemini 2.5 Pro. Bien que ses performances dans les tâches de cybersécurité se soient améliorées, il continue de faire face à des défis dans les scénarios réels les plus exigeants.
En réponse à ces constatations, Google déclare avoir mis en œuvre plusieurs couches de mesures de protection. Ces mesures comprennent le filtrage des sorties dangereuses, la surveillance multiniveau, le blocage des comptes abusifs et des exercices continus de “red-teaming” pour tester rigoureusement ses systèmes de protection.