GPT-5 d'OpenAI : Moins d'hallucinations, des progrès itératifs

Theregister

OpenAI a dévoilé son tout dernier et plus avancé modèle d’intelligence artificielle, GPT-5, marquant une étape significative dans la vision ambitieuse de l’entreprise pour l’IA. Présenté par le PDG Sam Altman comme une conversation avec un expert personnel capable de générer des applications à la demande, GPT-5 vise à inaugurer une ère définie par le « logiciel à la demande ». L’annonce, faite lors d’une présentation exhaustive remplie de démonstrations de code, a souligné les améliorations supposées du modèle dans des domaines critiques tels que le codage, l’écriture, les mathématiques et la perception visuelle, parallèlement à une réduction notable des inexactitudes factuelles et des sorties trompeuses.

Contrairement à ses prédécesseurs, GPT-5 n’est pas un modèle monolithique unique, mais plutôt un ensemble sophistiqué. Le système d’OpenAI achemine intelligemment les requêtes des utilisateurs vers divers modèles sous-jacents en fonction de facteurs tels que l’intention de l’utilisateur et la complexité de la demande. Par exemple, les requêtes simples pourraient être dirigées vers un modèle plus petit et plus efficace conçu pour des réponses rapides et moins « réfléchies », tandis que les tâches complexes ou nuancées pourraient activer un modèle plus grand et plus profondément raisonnant. Ce routage dynamique est généralement automatisé, bien que les utilisateurs payants auront la possibilité d’activer de manière permanente la fonctionnalité de raisonnement plus profond. OpenAI déclare que ce mécanisme de routage est continuellement affiné grâce à de nouveaux signaux d’entrée, améliorant sa capacité à discerner le modèle optimal pour chaque requête et quand engager un raisonnement plus approfondi. Malgré cette architecture actuelle, l’entreprise prévoit finalement de consolider ces composants disparates en un modèle unifié.

Au-delà de sa structure adaptative, OpenAI affirme que cette conception augmente considérablement l’efficacité. La société prétend que GPT-5 extrait une plus grande valeur avec moins d’effort de calcul. Lors d’évaluations internes, GPT-5, lorsqu’il engage ses capacités de raisonnement, atteindrait des performances comparables à celles de son prédécesseur, OpenAI o3, tout en générant 50 à 80 % moins de jetons de sortie sur diverses tâches, y compris le raisonnement visuel, le codage automatisé et la résolution de problèmes scientifiques de niveau supérieur.

L’accès à GPT-5 varie selon les niveaux d’utilisateurs. Les abonnés ChatGPT Free et Plus auront accès au GPT-5 standard et à une version compacte « mini ». Les utilisateurs Pro et Enterprise bénéficieront d’une variante « Pro », conçue pour un raisonnement étendu, tandis que ceux qui interagissent via l’API auront accès à une version « Nano » rentable aux côtés des modèles standard et mini.

Malgré les grandes affirmations et les démonstrations impressionnantes présentées lors du lancement, les résultats des benchmarks publiés dressent un tableau plus nuancé, suggérant souvent des avancées incrémentielles plutôt que révolutionnaires. Dans le benchmark de mathématiques AIME 2025, par exemple, GPT-5 Pro a devancé le précédent modèle phare o3 de seulement 1,6 point lorsqu’il utilisait des outils externes, et de 7,8 points sans eux. Cependant, pour les utilisateurs du niveau gratuit, la mise à niveau de GPT-4o vers le GPT-5 standard est substantielle, montrant une avance de 57,5 points. Des gains modestes similaires ont été observés dans d’autres benchmarks mathématiques. Les performances dans les défis académiques de haut niveau, tels qu’un quiz scientifique de niveau doctorat et le “Dernier Examen de l’Humanité”, ont également révélé des améliorations à un chiffre par rapport aux modèles de génération antérieure. Là où GPT-5 s’est vraiment distingué, c’est dans un benchmark pour les agents conversationnels, démontrant des progrès significatifs dans sa capacité à utiliser des outils et à suivre des instructions complexes. Le président d’OpenAI, Greg Brockman, a reconnu le défi de mesurer les progrès par les seuls benchmarks, notant que « lorsque vous passez de 98 % à 99 % dans un benchmark, cela signifie que vous avez besoin d’autre chose pour vraiment saisir à quel point le modèle est excellent. »

Les améliorations les plus convaincantes de GPT-5 résident peut-être dans sa fiabilité accrue, en particulier dans la réduction de la tendance des grands modèles linguistiques à « halluciner » ou à fabriquer des informations. OpenAI rapporte que les réponses de GPT-5 sont environ 45 % moins sujettes aux erreurs factuelles que GPT-4o. Lorsqu’il engage ses capacités de raisonnement, ce chiffre atteint une impressionnante réduction de 80 % des inexactitudes factuelles par rapport à OpenAI o3. La société a également mis en œuvre des évaluations rigoureuses pour détecter et atténuer les comportements trompeurs, où les modèles pourraient faussement affirmer l’achèvement d’une tâche ou exprimer une confiance excessive dans des réponses incertaines. Lors de tests avec des données de chat réelles, le taux de réponses trompeuses a diminué de 4,8 % sur o3 à 2,1 % dans les sorties de raisonnement de GPT-5.

Sur le front critique de la sécurité, OpenAI a introduit de nouveaux protocoles pour gérer les requêtes sensibles. Plutôt que de simplement refuser de répondre à des invites potentiellement douteuses – une limitation courante souvent contournée par une ingénierie d’invite astucieuse –, GPT-5 est conçu pour fournir la réponse la plus complète possible tout en respectant des paramètres de sécurité stricts. Par exemple, au lieu de refuser catégoriquement une question sur l’allumage d’un composé volatil, le modèle pourrait offrir des conseils sur l’endroit où trouver l’information, accompagnés d’avertissements clairs concernant les risques associés.

Ajoutant une touche de personnalisation, OpenAI déploie également quatre nouvelles personnalités optionnelles pour son interface ChatGPT : Cynique, Robot, Auditeur et Intello. Ces personnalités, initialement limitées au chat textuel avec des capacités vocales prévues pour plus tard, permettent aux utilisateurs d’adapter le style de communication de l’IA à leurs préférences. Mark Chen, directeur de la recherche chez OpenAI, a souligné que ces personnalités ont été soigneusement calibrées pour éviter les interactions excessivement flatteuses ou sycophantes avec les utilisateurs.

La famille de modèles GPT-5 est désormais accessible via ChatGPT pour les utilisateurs gratuits, Plus et Pro, avec une disponibilité étendue aux utilisateurs d’entreprise et d’éducation dans la semaine à venir. Les prix des abonnements ChatGPT restent cohérents, à 20 $ par mois pour le niveau Plus et 200 $ par mois pour le niveau Pro illimité. Les professionnels conservent également la possibilité d’accéder aux modèles via l’API d’OpenAI.