GPT-5 : Avis Partagés des Développeurs, Rentabilité Élevée
Le récent dévoilement de GPT-5 par OpenAI s’est accompagné d’affirmations audacieuses : un « véritable collaborateur de codage » conçu pour exceller dans la génération de code de haute qualité et l’exécution de tâches logicielles automatisées. Le lancement semblait défier directement Claude Code d’Anthropic, un outil qui est rapidement devenu une référence pour de nombreux développeurs recherchant une assistance au codage par IA. Cependant, les premières réactions de la communauté des développeurs suggèrent que les performances de GPT-5 ont été plus nuancées, présentant un mélange de capacités.
Bien que GPT-5 démontre une forte aptitude au raisonnement technique et à la planification stratégique des tâches de codage, plusieurs développeurs affirment que les derniers modèles Opus et Sonnet d’Anthropic produisent toujours un code supérieur. Un point de discorde récurrent est la verbosité de GPT-5 ; selon ses réglages, le modèle peut générer des réponses excessivement élaborées, conduisant parfois à des lignes de code inutiles ou redondantes. De plus, les propres méthodes d’évaluation d’OpenAI pour les prouesses de codage de GPT-5 ont suscité des critiques, certains arguant que les benchmarks sont trompeurs. Une société de recherche est allée jusqu’à qualifier de « crime graphique » une illustration publiée par OpenAI, vantant les capacités de GPT-5.
Malgré ces critiques, GPT-5 offre un avantage convaincant dans un domaine crucial : la rentabilité. Sayash Kapoor, doctorant en informatique et chercheur à l’Université de Princeton, co-auteur de AI Snake Oil, souligne cette distinction. Dans les tests de référence de son équipe, l’exécution d’une évaluation standard mesurant la capacité d’un modèle linguistique à reproduire les résultats de 45 articles scientifiques coûte seulement 30 $ avec GPT-5 (réglé sur une verbosité moyenne), contre un coût élevé de 400 $ pour le même test utilisant Opus 4.1 d’Anthropic. L’équipe de Kapoor a déjà investi environ 20 000 $ dans les tests de GPT-5, ce qui souligne la disparité significative des coûts.
Pourtant, cette abordabilité s’accompagne d’un compromis en matière de précision. Les tests de Kapoor indiquent que, bien que plus économique, GPT-5 est moins précis que certains de ses rivaux. Le modèle premium de Claude a atteint un taux de précision de 51 % dans la reproduction d’articles scientifiques, tandis que la version moyenne de GPT-5 n’a réussi que 27 %. Il est à noter qu’il s’agit d’une comparaison indirecte, car Opus 4.1 représente l’offre la plus puissante d’Anthropic, et l’équipe de Kapoor n’a pas encore effectué le même test avec le réglage de verbosité élevée de GPT-5.
OpenAI, par l’intermédiaire de sa porte-parole Lindsay McCallum, a renvoyé les demandes à son blog, qui indique que GPT-5 a été entraîné sur des « tâches de codage du monde réel en collaboration avec des testeurs précoces dans des startups et des entreprises ». La société a également présenté des mesures de précision internes pour GPT-5, révélant que son modèle « de réflexion », conçu pour un raisonnement plus délibéré, a atteint la plus grande précision parmi les modèles d’OpenAI. Cependant, le modèle « principal » de GPT-5 était toujours en retard par rapport aux modèles précédemment publiés sur l’échelle de précision interne d’OpenAI. La porte-parole d’Anthropic, Amie Rotherham, a répondu en soulignant que « les revendications de performance et les modèles de tarification sont souvent différents une fois que les développeurs commencent à les utiliser en environnements de production », suggérant que pour les modèles de raisonnement, « le prix par résultat compte plus que le prix par jeton ».
Au milieu des avis mitigés, certains développeurs rapportent des expériences largement positives avec GPT-5. Jenny Wang, ingénieure, investisseuse et créatrice de l’agent de stylisme personnel Alta, a trouvé que GPT-5 était apte à accomplir des tâches de codage complexes en une seule tentative, surpassant les anciens modèles OpenAI qu’elle utilise fréquemment pour la génération de code et les corrections simples. Par exemple, GPT-5 a généré du code pour une page de presse d’entreprise avec des éléments de conception spécifiques en une seule fois, une tâche qui nécessitait auparavant des invites itératives, bien que Wang ait noté qu’il « hallucinai les URL ». Un autre développeur, préférant l’anonymat, a loué la capacité de GPT-5 à résoudre des problèmes techniques profonds, citant ses recommandations impressionnantes et ses délais réalistes pour un projet complexe d’outil d’analyse de réseau. Plusieurs partenaires d’entreprise d’OpenAI, dont Cursor, Windsurf et Notion, ont publiquement approuvé les compétences de codage et de raisonnement de GPT-5, Notion affirmant qu’il gère les travaux complexes 15 % mieux que les autres modèles testés.
Inversement, certains développeurs ont exprimé une déception immédiate en ligne. Kieran Klassen, qui construit un assistant e-mail IA, a fait remarquer que les capacités de codage de GPT-5 semblaient « en retard », plus proches de Sonnet 3.5 d’Anthropic, sorti un an auparavant. Amir Salihefendić, fondateur de Doist, a trouvé GPT-5 « assez décevant » et « particulièrement mauvais en codage », traçant un parallèle avec le lancement décevant de Llama 4 de Meta. Le développeur Mckay Wrigley a loué GPT-5 comme un « modèle de chat quotidien phénoménal », mais a confirmé qu’il s’en tiendrait à Claude Code et Opus pour les tâches de codage. La nature « exhaustive » du modèle, bien que parfois utile, a également été décrite comme irritante par sa prolixité, Wang notant sa tendance à des solutions « plus redondantes ».
Itamar Friedman, cofondateur et PDG de la plateforme de codage IA Qodo, suggère que certaines des critiques découlent d’attentes évolutives. Il distingue l’« ère avant ChatGPT » (BCE), où les modèles d’IA s’amélioraient de manière holistique, et le paysage actuel post-ChatGPT où les avancées sont souvent spécialisées. Il a cité la domination de Claude Sonnet 3.5 en codage et la force de Google Gemini en révision de code comme exemples.
OpenAI a également fait l’objet d’un examen minutieux concernant sa méthodologie de test de référence. SemiAnalysis, une société de recherche, a souligné qu’OpenAI n’a effectué que 477 des 500 tests généralement inclus dans SWE-bench, un cadre standard de l’industrie de l’IA pour l’évaluation des grands modèles linguistiques. OpenAI a précisé qu’il utilise constamment un sous-ensemble fixe de 477 tâches car celles-ci sont validées sur son infrastructure interne, ajoutant que les variations dans le réglage de la verbosité du modèle peuvent influencer les performances d’évaluation.
En fin de compte, les entreprises d’IA de pointe sont confrontées à des compromis complexes, comme l’observe Sayash Kapoor. Les développeurs qui entraînent de nouveaux modèles doivent équilibrer les attentes des utilisateurs, les performances sur diverses tâches comme le codage agentique et le coût. Kapoor spécule qu’OpenAI, consciente qu’elle pourrait ne pas dominer tous les benchmarks, a probablement cherché à créer un modèle qui plairait largement à un large éventail d’utilisateurs, en priorisant un rapport coût-performance convaincant.