Gary Marcus critique GPT-5: surmédiatisé, décevant et plein de défauts

Decoder

Le récent dévoilement de GPT-5, le dernier modèle de langage étendu phare d’OpenAI, a été accueilli par une vague de scepticisme familière de la part du célèbre critique d’IA Gary Marcus. Dans un billet de blog aux mots acérés, Marcus a accusé OpenAI de favoriser un enthousiasme “en retard, surmédiatisé et décevant”, affirmant que le nouveau modèle, loin d’être une percée, représente simplement une autre étape incrémentale dans l’évolution continue de l’IA, toujours en proie à des problèmes fondamentaux persistants dans l’ensemble de l’industrie.

Sceptique de longue date quant à l’efficacité de la simple mise à l’échelle des réseaux neuronaux pour atteindre une véritable intelligence, Marcus a profité de la sortie de GPT-5 pour réitérer ses critiques fondamentales. Il a caractérisé GPT-5 comme “la dernière avancée incrémentale”, ajoutant qu’il “semblait précipité”. Bien que Sam Altman, PDG d’OpenAI, ait vanté GPT-5 comme offrant une expérience similaire à “parler à… un expert légitime de niveau doctorat dans n’importe quel domaine”, Marcus reste peu convaincu. Il a fait remarquer avec force que GPT-5 est “à peine meilleur que la ‘saveur du mois’ du mois dernier (Grok 4) ; sur certaines métriques (ARC-AGI-2), il est même pire”, se référant à un benchmark commun pour mesurer les capacités de raisonnement de l’IA.

En effet, Marcus a souligné que les défauts typiques associés aux grands modèles de langage ont fait surface presque immédiatement après le lancement de GPT-5. Il a exprimé le désir d’être réellement impressionné par “un système qui aurait pu tenir une semaine sans que la communauté ne trouve des tas d’erreurs ridicules et d’hallucinations”. Au lieu de cela, quelques heures après ses débuts, le système a montré des lacunes familières, y compris des explications physiques erronées lors de sa diffusion en direct de lancement, des réponses incorrectes à des problèmes d’échecs de base et des erreurs dans l’analyse d’images.

Ces erreurs isolées, a soutenu Marcus, ne sont pas des anomalies mais des symptômes de problèmes à l’échelle de l’industrie. Il a attiré l’attention sur une étude récente de l’Université d’État de l’Arizona qui résonne profondément avec ses préoccupations. Le document suggère que le raisonnement de “chaîne de pensée” — une méthode d’IA conçue pour décomposer des problèmes complexes en étapes plus petites et séquentielles — est “un mirage fragile qui s’évanouit lorsqu’il est poussé au-delà des distributions d’entraînement”. Marcus a noté que la lecture du résumé de l’étude lui a donné un sentiment de déjà-vu, renforçant sa conviction de longue date que “Le talon d’Achille que j’ai identifié alors demeure toujours”.

Ce problème de “décalage de distribution”, où les modèles d’IA ont des difficultés lorsqu’ils sont confrontés à des données ou des scénarios en dehors de leurs paramètres d’entraînement spécifiques, est, selon Marcus, précisément la raison pour laquelle d’autres grands modèles, de Grok à Gemini, échouent également dans des “tâches de transfert” plus complexes qui nécessitent l’application de connaissances à des situations nouvelles. Il a affirmé que “Ce n’est pas un accident. Cet échec est fondamental”, suggérant une limitation intrinsèque plutôt qu’un simple bogue.

Au-delà des spécificités techniques de GPT-5, Marcus a élargi sa critique pour englober des tendances plus larges au sein du secteur de l’IA. Il a condamné le battage médiatique effréné entourant le concept d’Intelligence Artificielle Générale (AGI), la dépendance à des vidéos de démonstration soigneusement sélectionnées qui masquent les limitations, le manque de transparence omniprésent concernant les données d’entraînement, et une industrie qu’il estime prioriser le marketing sur la recherche scientifique authentique. Dans son évaluation directe, “On nous a servi une dose constante de conneries ces dernières années.”

Comme correctif, Marcus a de nouveau plaidé pour les approches neurosymboliques, qui combinent les forces de reconnaissance de formes des réseaux neuronaux avec les capacités de raisonnement logique de l’IA symbolique, incorporant souvent des “modèles du monde explicites” qui donnent à l’IA une compréhension plus claire des règles régissant son environnement. Pour Marcus, le lancement de GPT-5 n’est pas un pas vers l’AGI, mais plutôt un moment charnière où même les passionnés de technologie les plus dévoués pourraient commencer à sérieusement remettre en question l’“hypothèse de mise à l’échelle” — la conviction que le simple fait de rendre les modèles plus grands conduira inévitablement à une IA plus intelligente et plus performante.