GPT-5 déçoit : l'IA se tourne vers l'application, non la recherche pure

Technologyreview

Sam Altman, PDG d’OpenAI, a suscité des attentes exceptionnellement élevées pour GPT-5 avant sa sortie jeudi dernier, déclarant que ses capacités le faisaient se sentir “inutile par rapport à l’IA” et évoquant des parallèles avec les développeurs de la bombe atomique. Cette nouvelle offre a été positionnée non seulement comme une mise à niveau incrémentale, mais comme une étape cruciale vers l’intelligence artificielle générale (AGI) — la frontière de l’IA promise depuis longtemps que les évangélistes croient transformer fondamentalement l’humanité pour le mieux. Pourtant, dans ce contexte d’immense anticipation, GPT-5 a largement déçu.

Les premiers testeurs et critiques ont rapidement souligné des erreurs flagrantes dans les réponses de GPT-5, contredisant directement l’affirmation d’Altman le jour du lancement selon laquelle le modèle fonctionne comme “un expert légitime de niveau doctorat dans n’importe quel domaine dont vous avez besoin à la demande”. Des problèmes sont également apparus avec la promesse d’OpenAI que GPT-5 discernerait automatiquement le modèle d’IA optimal pour une requête donnée — qu’il s’agisse d’un modèle de raisonnement complexe ou d’un modèle plus rapide et plus simple. Altman lui-même semble avoir concédé que cette fonctionnalité est défectueuse et compromet le contrôle de l’utilisateur. Sur une note plus positive, le nouveau modèle aborde, semble-t-il, la tendance de l’itération précédente à flatter excessivement les utilisateurs, GPT-5 montrant moins d’inclination à les couvrir de compliments effusifs. Globalement, comme l’ont noté certains observateurs, la sortie ressemble plus à une mise à jour de produit peaufinée — offrant des interfaces conversationnelles plus élégantes et esthétiquement agréables — plutôt qu’à un bond révolutionnaire dans les capacités de l’IA.

Cette avancée apparemment modeste en intelligence brute reflète un changement plus large au sein de l’industrie de l’IA. Pendant une période, les entreprises d’IA se sont principalement concentrées sur la construction des modèles les plus intelligents possibles, à l’image d’un “cerveau” universel, en faisant confiance à l’idée que l’intelligence générale se traduirait naturellement en diverses applications, de la poésie à la chimie organique. La stratégie tournait autour de la mise à l’échelle des modèles, du raffinement des techniques d’entraînement et de la poursuite de percées techniques fondamentales. Cependant, cette approche semble évoluer. Les percées anticipées ne se matérialisant peut-être pas aussi rapidement que prévu, la stratégie actuelle consiste à commercialiser agressivement les modèles existants pour des applications spécifiques, souvent avec des affirmations ambitieuses. Par exemple, les entreprises ont de plus en plus affirmé que leurs modèles d’IA pouvaient remplacer les codeurs humains, malgré les premières preuves suggérant le contraire. Ce pivot implique que, dans un avenir prévisible, les grands modèles linguistiques ne verront que des améliorations marginales de leurs capacités fondamentales, obligeant les entreprises d’IA à maximiser l’utilité de leurs offres actuelles.

Nulle part ce changement stratégique n’est plus évident que dans l’encouragement explicite d’OpenAI aux utilisateurs à tirer parti de GPT-5 pour des conseils de santé — un domaine particulièrement délicat et sensible. Initialement, OpenAI évitait largement les requêtes médicales, ChatGPT fournissant souvent de vastes clauses de non-responsabilité concernant son manque d’expertise médicale, et refusant parfois de répondre complètement aux questions liées à la santé. Cependant, des rapports indiquent que ces clauses de non-responsabilité ont commencé à disparaître avec les versions ultérieures du modèle. Les modèles d’OpenAI peuvent désormais interpréter des radiographies et des mammographies, et même poser des questions de suivi conçues pour guider les utilisateurs vers un diagnostic.

Cette poussée délibérée dans les soins de santé s’est concrétisée en mai avec l’annonce de HealthBench, un système conçu pour évaluer la compétence de l’IA dans les sujets de santé par rapport aux opinions des professionnels de la santé. Cela a été suivi par une étude de juillet, co-écrite par OpenAI, qui a rapporté qu’un groupe de médecins kenyans a commis moins d’erreurs de diagnostic lorsqu’il était assisté par un modèle d’IA. Le lancement de GPT-5 a encore cimenté cette trajectoire, Altman présentant un employé d’OpenAI, Felipe Millon, et son épouse, Carolina Millon, qui avait récemment été diagnostiquée avec plusieurs formes de cancer. Carolina a partagé son expérience d’utilisation de ChatGPT pour traduire le jargon médical complexe des résultats de biopsie et pour aider aux décisions, telles que la poursuite de la radiothérapie. Le trio a présenté cela comme un exemple stimulant de réduction de l’écart de connaissances entre les patients et les médecins.

Pourtant, ce changement d’approche plonge OpenAI en territoire dangereux. L’entreprise semble extrapoler des preuves que l’IA peut servir d’outil clinique bénéfique pour les médecins formés, pour suggérer que les individus sans formation médicale devraient chercher des conseils de santé personnels directement auprès des modèles d’IA. Une préoccupation significative est que de nombreux utilisateurs pourraient suivre de tels conseils sans jamais consulter un médecin, surtout maintenant que le chatbot les incite rarement à le faire. Une illustration frappante de ce risque est apparue juste deux jours avant le lancement de GPT-5, lorsque les Annals of Internal Medicine ont publié une étude de cas détaillant un homme qui a développé une grave intoxication au bromure — une condition largement éradiquée aux États-Unis depuis les années 1970 — après avoir cessé de consommer du sel et ingéré des quantités dangereuses de bromure suite à une conversation avec ChatGPT. Il a failli mourir, passant des semaines à l’hôpital.

Au fond, cette situation soulève des questions critiques de responsabilité. Lorsque les entreprises d’IA passent de la promesse d’une intelligence générale abstraite à l’offre d’une aide semblable à celle des humains dans des domaines spécialisés comme les soins de santé, la question de la responsabilité des erreurs devient primordiale et largement non résolue. Comme le souligne Damien Williams, professeur adjoint en science des données et philosophie à l’Université de Caroline du Nord à Charlotte : “Quand les médecins vous donnent des conseils médicaux nuisibles en raison d’une erreur ou d’un biais préjudiciable, vous pouvez les poursuivre pour faute professionnelle et obtenir réparation.” Il contraste cela fortement avec l’IA : “Quand ChatGPT vous donne des conseils médicaux nuisibles parce qu’il a été entraîné sur des données préjudiciables, ou parce que les ‘hallucinations’ sont inhérentes aux opérations du système, quel est votre recours ?” Le paysage actuel offre peu d’indications que les entreprises technologiques seront tenues responsables des dommages que leurs modèles d’IA pourraient causer.