GPT-5 : Fuites – Une mise à niveau modeste, pas de percée pour OpenAI
OpenAI se prépare à lancer GPT-5, son prochain modèle de langage large phare, mais les attentes penchent vers une mise à niveau modeste plutôt qu'un bond révolutionnaire. Après GPT-4, sorti en mars 2023, les tests internes de GPT-5 indiquent des progrès dans des domaines tels que la programmation, les mathématiques et l'exécution d'instructions complexes, y compris l'automatisation des flux de travail de service client. Cependant, le saut de capacité anticipé est considérablement plus petit que le bond substantiel de GPT-3 (2020) à GPT-4 (2023).
Des sources familières avec les évaluations indiquent que GPT-5 facilitera des applications plus conviviales et démontrera une gestion améliorée de ses ressources computationnelles. Malgré ces avancées, les améliorations globales sont décrites comme incrémentales.
Ce plateau observé s'aligne avec les prédictions faites par d'éminentes figures de l'IA. Le cofondateur de Microsoft, Bill Gates, l'a prédit fin 2023, et des critiques des LLM tels que Gary Marcus, l'ancien scientifique en chef d'OpenAI Ilya Sutskever, et Yann LeCun de Meta ont maintes fois affirmé que l'architecture basée sur le Transformer, qui sous-tend la plupart des grands modèles de langage actuels, atteint ses limites.
Un exemple éloquent de ces défis est le modèle interne "Orion" d'OpenAI. Initialement développé comme un successeur direct de GPT-4o, Orion n'a pas réussi à produire les gains attendus. Il a ensuite été publié sous le nom de GPT-4.5 début 2025, plutôt que de mériter la désignation GPT-5. GPT-4.5 a eu peu d'impact, il aurait fonctionné plus lentement et coûté plus cher que GPT-4o, et a rapidement disparu des radars. Un problème fondamental, selon The Information, était que les modifications de pré-entraînement qui fonctionnaient pour les petits modèles ne s'adaptaient pas efficacement aux plus grands. Parallèlement, OpenAI a été confronté à une diminution de l'approvisionnement en données web de haute qualité pour l'entraînement. En juin 2025, aucun des modèles d'OpenAI en développement n'était considéré comme suffisamment performant pour être appelé GPT-5.
Ce défi n'est pas exclusif à OpenAI. Les récents modèles Claude 4 d'Anthropic n'ont également apporté que des améliorations globales modestes, à l'exception d'une nette amélioration des performances de codage. Anthropic utilise déjà une architecture hybride combinant un grand modèle de langage avec des composants de raisonnement spécialisés, une approche que OpenAI pourrait également adopter pour GPT-5.
Au-delà de ses principaux modèles génératifs, OpenAI a développé des "modèles de raisonnement larges" (LRM). Ces modèles ont tendance à mieux performer sur des tâches complexes lorsqu'on leur alloue plus de puissance de calcul et pourraient devenir des outils précieux pour les mathématiques, la recherche web et la programmation – ou même pointer vers des directions entièrement nouvelles pour les modèles de langage. Cependant, des questions subsistent quant à leur généralisabilité et leurs besoins énergétiques.
Une avancée significative dans ce domaine pour OpenAI a été le modèle Q* fin 2023, qui aurait résolu des problèmes mathématiques qu'il n'avait jamais rencontrés auparavant. S'appuyant sur cela, OpenAI a développé les modèles o1 et o3, tous deux basés sur GPT-4o et conçus pour des applications spécialisées. Les modèles o1 et o3 ont tous deux été entraînés à l'aide de l'apprentissage par renforcement (RL), le "modèle enseignant" o3 recevant considérablement plus de puissance de calcul et un accès direct aux sources web et de code. Pendant l'entraînement RL, le modèle génère des réponses à des questions de niveau expert et s'améliore en comparant ses réponses à des solutions humaines.
Cependant, lorsque ces modèles ont été adaptés pour le chat, o3 aurait perdu une partie de ses capacités. Comme une source l'a dit à The Information, la version de chat a dû être "simplifiée" car elle n'était pas suffisamment entraînée pour une conversation réelle, ce qui a nui aux performances dans les paramètres de chat et d'API. Ce problème a été mis en évidence par le benchmark ARC-AGI en avril, où la version publique de o3 a obtenu de moins bons résultats à un test de puzzle difficile que le modèle de base interne, montrant que de nombreuses capacités de raisonnement originales n'ont pas survécu à la transition vers le chat.
Le modèle o3-pro illustre davantage cet équilibre délicat. Alors que les experts ont très bien noté o3-pro pour les tâches scientifiques, de programmation et commerciales, il a eu du mal avec des tâches quotidiennes simples. Par exemple, répondre à "Bonjour, je suis Sam Altman" a pris plusieurs minutes et a généré 80 $ de coûts de calcul pour une réponse triviale – un cas d'école de sur-réflexion. GPT-5 vise à trouver un équilibre entre la puissance de raisonnement spécialisée et l'utilité conversationnelle pratique.
Malgré ces obstacles techniques, GPT-5 est destiné à faire progresser les systèmes "agencés" – des applications où une IA peut effectuer plusieurs étapes seule. Le nouveau modèle devrait être capable de suivre des instructions complexes plus efficacement, avec moins de supervision humaine. GPT-5 devrait également dépasser GPT-4o en capacité sans utiliser beaucoup plus de calcul. Les tests internes montrent qu'il est meilleur pour évaluer quelles tâches nécessitent plus ou moins de puissance de calcul, ce qui pourrait rendre les processus plus efficaces et aider à éviter le type de sur-réflexion observé dans des modèles comme o3-pro.
Pour OpenAI, même des améliorations modestes de GPT-5 pourraient suffire à maintenir l'engagement des clients et des investisseurs. L'entreprise continue de croître rapidement, malgré des coûts d'exploitation élevés. Dans le domaine concurrentiel de l'IA liée au codage, où Anthropic est actuellement en tête avec ses modèles Claude, OpenAI espère regagner du terrain avec GPT-5.
OpenAI tire de plus en plus parti de l'apprentissage par renforcement, en particulier d'un "vérificateur universel" qui évalue automatiquement la qualité des réponses du modèle – même pour des tâches subjectives comme l'écriture créative. Ce vérificateur universel a également été utilisé dans le modèle OpenAI qui a récemment remporté l'or aux Olympiades Internationales de Mathématiques. Le chercheur d'OpenAI, Jerry Tworek, a suggéré que ce système de RL pourrait constituer la base de l'intelligence artificielle générale (AGI).