OpenAI GPT-5 Dévoilé : Modèle IA Expert, Capacités & Premières Réactions

Gradientflow

OpenAI a dévoilé GPT-5, positionnant son dernier grand modèle linguistique comme un système de fondation de “niveau expert” prêt à redéfinir l’interaction de l’IA avec des tâches complexes. Présenté comme une architecture unifiée qui achemine intelligemment les requêtes vers des sous-modèles spécialisés en fonction de leur complexité, GPT-5 promet des réponses de “calibre doctoral” pour les problèmes exigeants tout en maintenant une faible latence pour les requêtes plus simples. Cela marque un changement significatif par rapport aux modèles précédents, où les utilisateurs sélectionnaient manuellement entre vitesse et profondeur, et l’annonce a suscité un mélange d’enthousiasme et de scepticisme.

Au cœur des avancées de GPT-5 se trouvent des gains de performance robustes, en particulier en matière de codage et de précision factuelle. Sur le benchmark d’ingénierie logicielle du monde réel SWE-bench Verified, GPT-5 a atteint 74,9 %, une amélioration notable par rapport aux 69,1 % de son prédécesseur o3, et a obtenu 88 % sur Aider Polyglot pour le codage multilingue. Cela permet au modèle d’échafauder des applications full-stack complètes à partir de simples invites, gérant tout, de l’installation des dépendances aux aperçus d’interface utilisateur en direct, et excellant dans la génération de front-end complexes. De manière cruciale, GPT-5 réduit considérablement les hallucinations. Lorsqu’il est intégré à la recherche web, ses réponses sont environ 45 % moins susceptibles de contenir des erreurs factuelles que GPT-4o, un chiffre qui atteint 80 % de moins dans son mode de raisonnement dédié par rapport à OpenAI o3. Des tests pratiques le confirment : sur des invites de recherche de faits ouvertes, GPT-5 a montré six fois moins d’hallucinations, et face à des images manquantes, il n’a donné des réponses confiantes et incorrectes que 9 % du temps, un contraste saisissant avec les 86,7 % d’o3.

Au-delà du texte, GPT-5 repousse les limites multimodales, atteignant un nouveau record de 84,2 % sur le benchmark MMMU pour le raisonnement visuel. Il peut interpréter des images, des graphiques et des diagrammes avec une grande précision, générer ou éditer des actifs front-end, créer des animations SVG et même développer des jeux 3D à la volée. L’interface vocale de ChatGPT offre désormais un son naturel humain, interprète les flux de caméra et ajuste dynamiquement son style de réponse. Pour les développeurs, l’API introduit des paramètres critiques tels que reasoning_effort pour échanger la latence contre la profondeur, et verbosity pour contrôler la concision de la sortie. Les outils personnalisés prennent désormais en charge l’entrée de texte brut, contournant le JSON, et la fenêtre de contexte a été étendue à 400 000 jetons, soit le double de la capacité de GPT-4, ce qui la rend efficace pour la synthèse de documents volumineux.

GPT-5 a été spécifiquement entraîné comme un coéquipier IA collaboratif, faisant preuve d’autonomie, de communication et de gestion du contexte. Il fournit des plans initiaux, propose des mises à jour de progression, exécute automatiquement des tests et peut même s’autodéboguer par construction itérative. Sa capacité à maintenir le contexte à travers de longues chaînes d’appels d’outils est attestée par un score de 70 % sur le benchmark multi-défis de Scale, ce qui a conduit Cursor à adopter GPT-5 comme modèle par défaut. Les premiers testeurs en entreprise ont déjà identifié des cas d’utilisation convaincants : Amgen l’exploite pour un raisonnement approfondi avec des données scientifiques complexes, BBVA a vu les tâches d’analyse financière passer de semaines à des heures, et Oscar Health l’utilise pour le raisonnement clinique, en particulier pour la cartographie des politiques médicales complexes. Le gouvernement fédéral américain prévoit de donner accès à deux millions d’employés.

OpenAI a structuré la tarification de GPT-5 avec des modèles à plusieurs niveaux. Le GPT-5 pleine fidélité coûte 1,25 $ par million de jetons d’entrée et 10,00 $ par million de jetons de sortie, servant de valeur par défaut pour ChatGPT et l’API. Un GPT-5 Mini plus économique est disponible, aux côtés du GPT-5 Nano hautement optimisé, conçu pour les applications Edge et critiques en latence, qui est environ 25 fois moins cher. L’accès est échelonné, les utilisateurs gratuits commençant avec GPT-5 avant de passer au Mini ; les abonnés Plus et Pro reçoivent des limites d’utilisation progressivement plus élevées ou illimitées. Les comptes Team, Enterprise et EDU bénéficient d’un accès par défaut généreux, et toutes les organisations vérifiées reçoivent un accès API immédiat.

En matière de sécurité, GPT-5 introduit une approche de “complétions sûres”, allant au-delà du simple refus des requêtes sensibles. Il vise à maximiser l’utilité dans les limites de sécurité, offrant des réponses partielles ou expliquant les limitations, en particulier pour les domaines à “double usage”, réduisant le texte passe-partout inutile. Malgré ces avancées, les premières réactions sont mitigées. Bien que ses capacités de codage améliorées, la réduction des hallucinations, les raffinements de l’API et les gains de temps rapportés aient suscité des éloges, certains observateurs considèrent GPT-5 comme un “GPT-4.5” incrémental plutôt qu’un saut révolutionnaire. Des inquiétudes ont été soulevées concernant le “vibecharting” dans les présentations de benchmarks – l’exagération visuelle de petits gains, comme une simple amélioration de 0,4 % sur SWE-bench par rapport à l’état de l’art. Des erreurs techniques dans les démonstrations, comme une explication incorrecte de l’effet Bernoulli, ont alimenté le scepticisme quant à son intelligence de “niveau PhD”. De plus, des questions persistent quant à savoir si GPT-5 est véritablement un modèle unifié ou une orchestration intelligente, ce qui pourrait limiter ses avantages pour les applications sensibles à la latence.