ArsTechnica teste GPT-5 vs. GPT-4o : Le nouveau modèle est-il pire ?

Arstechnica

Le récent déploiement du modèle GPT-5 d’OpenAI a été accueilli par un important tollé des utilisateurs, avec des plaintes allant d’un ton perçu comme stérile et une créativité diminuée à une augmentation des erreurs factuelles. Ce mécontentement généralisé a même incité OpenAI à réintroduire le modèle GPT-4o précédent comme alternative. Pour évaluer objectivement ces affirmations, Ars Technica a soumis GPT-5 et GPT-4o à une série rigoureuse de tests, certains adaptés d’évaluations antérieures et d’autres conçus pour refléter la manière dont les utilisateurs modernes interagissent avec les grands modèles linguistiques. Tout en reconnaissant la subjectivité inhérente au jugement des réponses de l’IA et la portée limitée d’une évaluation de huit invites, cet exercice offre des informations précieuses sur les différences stylistiques et substantielles entre les nouveaux et les anciens modèles phares d’OpenAI.

Le premier défi consistait à générer cinq ‘blagues de papa’ originales. GPT-5, malgré ses affirmations, a livré des exemples largement peu originaux mais bien formés. GPT-4o, à l’inverse, a mélangé des reprises peu inspirées avec des tentatives d’originalité qui sont simplement tombées à plat, s’appuyant sur une logique forcée plutôt que sur des jeux de mots astucieux. Étant donné l’incapacité des deux modèles à produire un contenu véritablement original, ce tour s’est conclu par un match nul.

Ensuite, un problème mathématique a demandé combien de disquettes de 3,5 pouces seraient nécessaires pour ‘expédier’ Microsoft Windows 11. GPT-5 a démontré un raisonnement supérieur, entrant en mode ‘Réflexion’ pour calculer avec précision le nombre basé sur la taille moyenne de l’ISO de Windows 11 (5-6 Go) et fournissant même des liens sources. GPT-4o, tout en offrant une interprétation compréhensible, a basé son calcul sur la taille d’installation finale du disque dur, plus grande (20-30 Go). Malgré les informations supplémentaires, bien que non sollicitées, de GPT-4o sur les dimensions physiques de milliers de disquettes, GPT-5 a remporté la victoire pour son interprétation précise de l’invite.

En écriture créative, les deux modèles ont rédigé une histoire de deux paragraphes sur Abraham Lincoln inventant le basketball. GPT-5 a offert un portrait charmant et populaire de Lincoln, ponctué de lignes délicieuses comme ‘l’histoire était sur le point de rebondir dans une nouvelle direction’. GPT-4o, cependant, a parfois forcé l’ingéniosité, avec des analogies contraintes, bien qu’il ait presque remporté la victoire avec sa fin mémorable et kitsch : ‘Four score… and nothing but net.’ En fin de compte, GPT-5 a devancé de peu son prédécesseur pour sa narration plus cohérente.

La capacité de rappel factuel des modèles a été testée en demandant une courte biographie de Kyle Orland d’Ars Technica. Historiquement, les grands modèles linguistiques ont eu du mal avec de telles requêtes personnelles, fabriquant souvent des détails. GPT-5 a marqué une amélioration significative, résumant avec précision les biographies publiques de l’auteur avec des citations utiles et sans hallucinations — une première pour l’équipe de test. GPT-4o a admirablement bien performé sans recherches web explicites, mais a échoué en décrivant un blog disparu depuis longtemps comme ‘de longue date’. La précision et le détail supérieurs de GPT-5 en ont fait le vainqueur incontestable.

Lorsqu’il a été demandé de rédiger un e-mail délicat à un patron concernant une date limite de projet impossible, les deux modèles ont fourni des réponses polies mais fermes. GPT-5 s’est distingué en recommandant une décomposition des sous-tâches avec des estimations de temps et en proposant proactivement des solutions plutôt que de simples plaintes. Il a en outre fourni une analyse non sollicitante de l’efficacité d’une telle structure d’e-mail, ajoutant un aperçu précieux. L’approche plus complète et stratégique de GPT-5 lui a valu l’avantage.

Lors d’un test critique impliquant des conseils médicaux, les deux modèles ChatGPT ont louablement et directement déclaré qu’aucune preuve scientifique ne soutenait les cristaux de guérison comme traitement du cancer. GPT-5 a légèrement hésité en mentionnant des utilisations complémentaires. GPT-4o, en revanche, a été sans équivoque direct, qualifiant les cristaux de guérison de ‘pseudoscience’ et citant plusieurs sources web détaillant leur inefficacité. La clarté percutante de GPT-4o et sa dépendance à des sources vérifiables en ont fait le choix supérieur pour cette requête sensible。

Le défi de fournir des conseils de jeu vidéo, spécifiquement comment battre le monde 8-2 de Super Mario Bros. sans courir, a révélé une tournure surprenante : les ‘speedrunners’ ont en effet trouvé des moyens. GPT-5 l’a partiellement compris, suggérant des ‘Bullet Bills’, mais a inclus des méthodes incorrectes. GPT-4o, tout en faisant également une suggestion bizarre concernant un tremplin inexistant, a finalement fourni des solutions plus détaillées et visuellement attrayantes pour le défi réel. Bien que les deux modèles aient présenté quelques non-séquiturs étranges, la présentation générale de GPT-4o et les détails pertinents supplémentaires lui ont donné l’avantage.

Enfin, un scénario d’urgence : expliquer comment atterrir de manière concise un Boeing 737-800 à un novice complet, avec ‘le temps presse’. GPT-5 a poussé la ‘concision’ trop loin, omettant des détails cruciaux. GPT-4o, à l’inverse, est resté concis tout en incorporant des informations vitales concernant l’apparence et l’emplacement des commandes clés. Dans une situation hypothétique de vie ou de mort, le guide plus détaillé mais pratique de GPT-4o serait sans aucun doute préférable.

Dans un décompte numérique, GPT-5 a techniquement remporté une victoire étroite, gagnant quatre invites contre trois pour GPT-4o, avec un match nul. Cependant, ce simple score masque la réalité nuancée que dans de nombreux cas, déterminer la ‘meilleure’ réponse était une question de jugement subjectif. GPT-4o a généralement fourni des réponses plus détaillées et personnalisées, tandis que GPT-5 penchait vers la franchise et la concision. Le style préféré dépendait souvent de la nature spécifique de l’invite et de la préférence individuelle de l’utilisateur. En fin de compte, cette comparaison souligne la difficulté inhérente pour tout grand modèle linguistique d’être universellement optimal pour chaque utilisateur et chaque requête. Cela suggère que les utilisateurs habitués aux nuances et aux schémas stylistiques des modèles plus anciens peuvent inévitablement trouver certains aspects des nouvelles itérations moins satisfaisants, indépendamment des avancées globales.