Lancement de GPT-5 d'OpenAI : Des débuts difficiles et des performances décevantes

Venturebeat

Le lancement très attendu du modèle GPT-5 d’OpenAI a rencontré un accueil difficile, marqué par une série d’erreurs signalées par les utilisateurs et une insatisfaction généralisée. Suite à sa présentation en direct, qui comprenait elle-même des problèmes dans les graphiques et les démonstrations vocales, les utilisateurs ont rapidement commencé à signaler des cas où GPT-5 échouait sur des tâches que des modèles OpenAI antérieurs, et même des systèmes d’IA concurrents, géraient correctement.

Parmi les exemples notables de ces faux pas, on trouve l’incapacité de GPT-5 à résoudre correctement des problèmes mathématiques de base. Le scientifique de données Colin Fraser a partagé des captures d’écran illustrant l’incapacité du modèle à prouver si la décimale répétée 8.888 est égale à 9 (ce qu’elle n’est pas). Il a également trébuché sur une équation algébrique simple, 5.9 = x + 5.11, un problème que les élèves du primaire pourraient généralement résoudre. De plus, les tentatives d’utiliser GPT-5 pour évaluer les propres graphiques de présentation erronés d’OpenAI ont donné des réponses inutiles et incorrectes. Le modèle a même eu du mal avec un problème mathématique plus complexe qui, bien que difficile initialement pour les humains, a été résolu avec précision par l’IA Groq 4 d’Elon Musk.

Au-delà du raisonnement mathématique, les prouesses de codage de GPT-5, malgré de solides benchmarks internes et de tiers, semblent insuffisantes dans les applications réelles. Alors que les benchmarks suggéraient une supériorité, les développeurs rapportent que Claude Opus 4.1 d’Anthropic, récemment mis à jour, est souvent plus performant pour les tâches en “un seul coup” — c’est-à-dire la réalisation de l’application ou de la construction logicielle souhaitée par l’utilisateur en une seule tentative. Cette disparité met en évidence un écart entre les métriques de performance théoriques et l’utilité pratique.

Aggravant la frustration des utilisateurs, OpenAI supprime progressivement ses modèles plus anciens et bien considérés, y compris GPT-4o et le puissant modèle de raisonnement o3, pour les utilisateurs de ChatGPT. Bien que ceux-ci restent accessibles via l’interface de programmation d’applications (API) pour les développeurs, leur retrait de l’interface utilisateur principale a été accueilli avec consternation. S’ajoutant aux préoccupations, un rapport de la société de sécurité SPLX a indiqué que les couches de sécurité internes d’OpenAI présentent des vulnérabilités importantes, en particulier dans des domaines tels que l’alignement commercial et la susceptibilité aux attaques par injection de prompts et de logique obfusquée.

Les premiers retours de la communauté de l’IA brossent un tableau d’un accueil tiède. Un sondage mené par l’influenceur IA Bilawal Sidhu demandant un “vibe check” sur GPT-5 a montré qu’une majorité écrasante le décrivait comme “assez moyen”. Ce sentiment a été relayé sur les plateformes de médias sociaux, avec le compte pseudonyme AI Leaks and News notant un consensus “majoritairement négatif” sur X (anciennement Twitter) et Reddit. Une source principale de mécontentement des utilisateurs provient de la nouvelle fonctionnalité de “routeur” de GPT-5, conçue pour sélectionner automatiquement un mode de “pensée” ou de “non-pensée” en fonction de la difficulté de la requête. Les utilisateurs signalent que ce routeur se met fréquemment par défaut en mode de non-pensée moins performant, ce qui entrave les performances pour les requêtes complexes.

Cet accueil tiède pose un défi significatif pour OpenAI, d’autant plus que la concurrence s’intensifie. Des rivaux majeurs comme Google et Anthropic font rapidement progresser leurs propres grands modèles de langage. De plus, une gamme croissante de LLM chinois puissants, souvent gratuits et open-source, émergent, offrant des fonctionnalités compétitives. Par exemple, le modèle Qwen 3 d’Alibaba a récemment mis à jour sa fenêtre de contexte à 1 million de tokens, permettant près de quatre fois plus d’échanges d’informations en une seule interaction par rapport à GPT-5. L’autre récente publication d’OpenAI, les modèles open-source GPT-OSS, a également reçu une réponse mitigée. Ce contexte plus large, couplé à une récente prédiction du marché des paris Polymarket favorisant Google pour avoir le meilleur modèle d’IA d’ici fin août 2025, suggère un paysage en mutation.

Malgré les revers initiaux, certains initiés de l’industrie, tels que Matt Schumer, cofondateur et PDG d’Otherside AI, suggèrent que les vues négatives pourraient évoluer à mesure que les utilisateurs et les développeurs optimisent leurs approches d’intégration pour le nouveau modèle. Schumer postule qu’il y a généralement un décalage temporel entre la sortie d’un nouveau modèle et le moment où les entreprises adaptent entièrement leurs systèmes pour exploiter ses capacités. Cependant, ces premières indications suggèrent que GPT-5 n’est pas le “succès retentissant” que furent les itérations précédentes comme GPT-4 ou 4o. C’est un signal préoccupant pour OpenAI, une entreprise qui, malgré avoir récemment obtenu un autre cycle de financement, reste non rentable en raison de ses coûts de recherche et développement étendus.