GPT-5 rate le test du battage médiatique : gains incrémentaux déçoivent les utilisateurs
Le lancement de GPT-5 d’OpenAI la semaine dernière a suscité une vague d’anticipation fervente à travers le paysage technologique, pour n’être finalement accueilli que par une déception généralisée. Avant la grande révélation, le PDG d’OpenAI, Sam Altman, avait déclaré que GPT-5 était “quelque chose dont je ne voudrais jamais avoir à revenir”, le comparant aux débuts révolutionnaires de l’iPhone avec un écran Retina. La nuit précédant la diffusion en direct de l’annonce, Altman a encore alimenté les spéculations en publiant une image de l’Étoile de la Mort, incitant un utilisateur sur X à décrire l’atmosphère comme s’apparentant à la “veille de Noël”. Tous les regards étaient tournés vers le créateur de ChatGPT, désireux de voir si l’immense publicité se traduirait par un bond révolutionnaire ou une déception. Selon la plupart des témoignages, ce fut cette dernière.
La ferveur pour le modèle tant attendu d’OpenAI s’était construite depuis des années, depuis la sortie de GPT-4 en 2023. Lors d’un AMA (Ask Me Anything) sur Reddit en octobre dernier, les utilisateurs ont maintes fois pressé Altman et son équipe pour obtenir des détails sur les fonctionnalités et la date de sortie de GPT-5, un Redditor demandant sèchement : “Pourquoi GPT-5 prend-il autant de temps ?” Altman avait attribué le retard à des limitations computationnelles, notant la complexité croissante de ces modèles et la difficulté du développement parallèle.
Cependant, lorsque GPT-5 est finalement devenu accessible via ChatGPT, les réactions des utilisateurs ont été largement peu enthousiastes. Les avancées significatives que beaucoup attendaient sont apparues incrémentales, les principales améliorations du modèle étant observées dans des domaines tels que le coût opérationnel et la vitesse de traitement. Bien que moins spectaculaires, ces gains pourraient, à long terme, représenter une solide stratégie financière pour OpenAI.
Les attentes du public pour GPT-5 étaient exceptionnellement élevées, un utilisateur de X remarquant que le seul post d’Altman sur l’Étoile de la Mort avait “modifié les attentes de tous”. OpenAI a fait peu pour tempérer ces projections, vantant GPT-5 comme son “meilleur système d’IA à ce jour” et un “bond significatif en intelligence”, se targuant de “performances de pointe en codage, mathématiques, écriture, santé, perception visuelle, et plus encore”. Altman lui-même a affirmé que converser avec le modèle donnait l’impression de “parler à un expert de niveau doctorat”.
Ce battage médiatique ambitieux a créé un contraste saisissant avec la réalité vécue par les utilisateurs. Les médias sociaux se sont rapidement remplis d’exemples d’erreurs déroutantes de GPT-5. Un modèle doté d’une intelligence de niveau doctorat pourrait-il, par exemple, insister à plusieurs reprises sur la présence de trois “b” dans “blueberry”, ou ne pas identifier le nombre de noms d’États américains contenant la lettre “R” ? Les utilisateurs ont également signalé des cas où le modèle étiquetait incorrectement une carte des États-Unis avec des États fabriqués tels que “New Jefst” et “Krizona”, ou identifiait à tort le Nevada comme une extension de la Californie. De plus, les utilisateurs qui comptaient sur le chatbot pour un soutien émotionnel ont trouvé le nouveau système austère et distant, provoquant un tel contrecoup qu’OpenAI a temporairement rétabli le support pour un modèle plus ancien. La déception a même engendré des mèmes, l’un d’eux représentant célèbrent GPT-4 et GPT-4o comme de redoutables dragons, avec GPT-5 réduit à un simplet.
L’opinion publique des experts était tout aussi impitoyable. Gary Marcus, une voix éminente de l’industrie de l’IA et professeur émérite de psychologie à l’Université de New York, a caractérisé le modèle comme “en retard, surestimé et décevant”. Peter Wildeford, cofondateur de l’Institute for AI Policy and Strategy, a conclu dans sa critique : “Est-ce le succès massif que nous recherchions ? Malheureusement, non.” Le populaire blogueur de l’industrie de l’IA Zvi Mowshowitz l’a jugé “un bon modèle, mais pas excellent”, tandis qu’un Redditor sur le Reddit AMA officiel de GPT-5 a déclaré sans ambages : “Quelqu’un dise à Sam que le 5 est une horreur absolue.”
Dans les jours suivant la sortie de GPT-5, la vague initiale de critiques peu impressionnées s’est quelque peu tempérée. Le consensus émergent suggère que si GPT-5 n’a pas livré l’avancée monumentale que beaucoup attendaient, il offre des améliorations significatives en matière d’efficacité des coûts, de vitesse, et notamment, une réduction des “hallucinations” ou des erreurs factuelles. Un nouveau “système de commutation”, qui achemine automatiquement les requêtes vers le modèle de backend le plus approprié, a également été introduit. Altman s’est depuis lors appuyé sur ce récit, déclarant : “GPT-5 est le modèle le plus intelligent que nous ayons jamais créé, mais la principale chose pour laquelle nous avons poussé est l’utilité réelle et l’accessibilité/abordabilité de masse.” Christina Kim, chercheuse chez OpenAI, a fait écho à cela, publiant sur X que “la vraie histoire est l’utilité. Il aide avec ce qui intéresse les gens — l’expédition de code, l’écriture créative et la navigation d’informations sur la santé — avec plus de stabilité et moins de friction.” Elle a souligné son étalonnage amélioré, sa capacité à admettre l’incertitude et sa capacité à fonder les réponses avec des citations.
Malgré ces améliorations revendiquées, un sentiment répandu persiste selon lequel GPT-5 a, paradoxalement, rendu ChatGPT moins éloquent. Des publications virales sur les médias sociaux déplorent son manque perçu de nuance et de profondeur dans l’écriture, le décrivant souvent comme robotique et froid. Même les propres supports marketing d’OpenAI, présentant une comparaison côte à côte de toasts de mariage générés par GPT-4o et GPT-5, n’ont pas présenté une victoire sans équivoque pour le nouveau modèle. Quand Altman a directement demandé aux Redditors s’ils trouvaient GPT-5 supérieur pour les tâches d’écriture, il a été confronté à une défense écrasante du modèle GPT-4o retiré, le conduisant à le restaurer temporairement sur ChatGPT en une journée.
Cependant, un domaine où GPT-5 semble réellement briller est le codage. Une itération de GPT-5 est actuellement en tête du classement des modèles d’IA les plus populaires dans la catégorie du codage, surpassant des concurrents comme Claude d’Anthropic. Les démonstrations de lancement d’OpenAI ont mis en évidence sa capacité à générer des jeux, un outil de pixel art, un simulateur de batterie et un visualiseur lofi. Bien que les projets complexes puissent encore présenter des bugs, le modèle a montré des promesses pour des tâches de codage plus simples, telles que la création d’une leçon de broderie interactive. Cela représente une victoire significative pour OpenAI dans l’arène féroce du codage IA, où il rivalise avec des acteurs comme Anthropic et Google. Les entreprises sont prêtes à investir massivement dans des solutions de codage IA, ce qui en fait l’un des générateurs de revenus les plus réalistes et substantiels pour les startups IA qui brûlent généralement de l’argent. Bien qu’OpenAI ait également souligné le potentiel de GPT-5 dans le domaine de la santé, son efficacité pratique dans ce secteur reste largement non testée.
Ces dernières années, l’importance des benchmarks d’IA a diminué, car ils changent fréquemment et les entreprises ne divulguent les résultats que de manière sélective. Néanmoins, ils offrent toujours un aperçu raisonnable des performances de GPT-5. Le modèle a surpassé ses prédécesseurs lors de nombreux tests industriels, mais comme l’a noté Wildeford, cette amélioration était largement “ce à quoi on pouvait s’attendre – de petites augmentations incrémentales plutôt que quelque chose digne d’un vague mème de l’Étoile de la Mort”. Pourtant, si l’histoire récente est un guide, ces avancées modestes et incrémentales sont souvent plus susceptibles de se traduire par des profits tangibles que des fonctionnalités conçues uniquement pour impressionner les consommateurs individuels. Les entreprises d’IA comprennent que leurs principales sources de revenus proviennent des clients d’entreprise, des contrats gouvernementaux et des investissements. Dans ce contexte, un progrès constant et incrémental sur des benchmarks établis, associé à des capacités de codage améliorées et une réduction des erreurs, représente la stratégie la plus efficace pour capitaliser sur ces avenues lucratives.