L'Agent ChatGPT d'OpenAI : Contrôle PC & Automatisation de Tâches Avancées
OpenAI a introduit l’agent ChatGPT, une évolution significative de son modèle phare d’intelligence artificielle, désormais équipé d’un ordinateur virtuel et d’une boîte à outils intégrée. Cette mise à niveau permet à l’IA d’exécuter des tâches complexes et multi-étapes auparavant hors de sa portée, y compris le contrôle direct de l’ordinateur d’un utilisateur et l’accomplissement de missions en son nom. Cette version plus performante, bien que nécessitant encore une supervision humaine considérable, est apparue peu avant que des chercheurs de Meta ne rapportent que leurs propres modèles d’IA montraient des signes d’auto-amélioration indépendante, et a également précédé la sortie de la dernière itération du chatbot d’OpenAI, GPT-5.
Avec l’agent ChatGPT, les utilisateurs peuvent désormais instruire le grand modèle linguistique (LLM) non seulement pour analyser des informations ou collecter des données, mais aussi pour agir sur ces données. Par exemple, on pourrait commander à l’agent de scanner un calendrier et de résumer les événements et rappels à venir, ou de traiter un grand ensemble de données et de le condenser en un synopsis concis ou un jeu de diapositives de présentation. Alors qu’un LLM traditionnel pourrait fournir des recettes pour un petit-déjeuner de style japonais, l’agent ChatGPT pourrait aller plus loin, planifiant et achetant tous les ingrédients nécessaires pour un nombre spécifique d’invités.
Malgré ses capacités améliorées, le nouveau modèle fait face à des limitations inhérentes. Comme tous les modèles d’IA, son raisonnement spatial reste faible, rendant des tâches telles que la planification d’itinéraires physiques difficiles. Il manque également de véritable mémoire persistante, traitant les informations sur le moment sans rappel fiable ni capacité à référencer des interactions passées au-delà du contexte immédiat.
Néanmoins, l’agent ChatGPT démontre des améliorations notables dans les propres benchmarks d’OpenAI. Sur « Humanity’s Last Exam », un benchmark d’IA conçu pour évaluer la compétence d’un modèle à répondre à des questions de niveau expert dans diverses disciplines, l’agent a plus que doublé le pourcentage de précision, atteignant 41,6 % contre 20,3 % pour OpenAI o3 sans outils. Il a également significativement surpassé d’autres outils d’OpenAI, ainsi qu’une version de lui-même dépourvue de fonctionnalités intégrées comme un navigateur et un ordinateur virtuel. Dans le difficile benchmark mathématique « FrontierMath », l’agent ChatGPT, avec sa suite complète d’outils, a de nouveau substantiellement surpassé les modèles précédents.
L’architecture de l’agent est construite sur trois éléments fondamentaux dérivés des produits OpenAI antérieurs. Le premier est « Operator », un agent conçu pour naviguer sur le web via son propre navigateur virtuel. Le second, « deep research », se concentre sur le tri et la synthèse de vastes quantités de données. Le composant final intègre les versions précédentes de ChatGPT, tirant parti de leurs forces en matière de fluidité conversationnelle et de présentation.
Kofi Nyarko, professeur à l’Université d’État de Morgan et directeur du Laboratoire de recherche en ingénierie des données et en analyse prédictive (DEPA), a résumé la fonctionnalité principale de l’agent : « En substance, il peut naviguer de manière autonome sur le web, générer du code, créer des fichiers, et ainsi de suite, le tout sous supervision humaine. » Cependant, Nyarko s’est empressé de souligner que le nouvel agent n’est pas réellement autonome. Il a averti que « les hallucinations, la fragilité de l’interface utilisateur ou les erreurs d’interprétation peuvent entraîner des erreurs. Les mesures de protection intégrées, telles que les invites d’autorisation et l’interruption, sont essentielles mais ne suffisent pas à éliminer entièrement les risques. »
OpenAI a elle-même ouvertement reconnu les dangers potentiels posés par cet agent plus autonome, citant ses « hautes capacités biologiques et chimiques ». La société a exprimé des préoccupations selon lesquelles l’agent pourrait potentiellement aider à la création d’armes chimiques ou biologiques. Comparé aux ressources existantes comme un laboratoire de chimie et un manuel, un agent IA représente ce que les experts en biosécurité appellent une « voie d’escalade des capacités ». L’IA peut rapidement accéder et synthétiser d’innombrables ressources, fusionner des connaissances entre divers domaines scientifiques, offrir un dépannage itératif similaire à un mentor expert, naviguer sur les sites web des fournisseurs, remplir des formulaires de commande et même aider à contourner les vérifications de base.
De plus, avec son ordinateur virtuel, l’agent peut interagir de manière autonome avec des fichiers, des sites web et des outils en ligne, amplifiant son potentiel de nuisance en cas de mauvaise utilisation. Le risque de violations ou de manipulations de données, ainsi que de comportements malveillants tels que la fraude financière, est accru en cas d’attaque par injection de prompt, où des instructions malveillantes sont subtilement intégrées pour détourner le comportement de l’IA. Nyarko a en outre souligné que ces risques s’ajoutent à ceux inhérents aux modèles d’IA traditionnels et aux LLM. Il a développé des préoccupations plus larges concernant les agents IA, notamment la manière dont les opérations autonomes pourraient amplifier les erreurs, introduire des biais provenant de données publiques, compliquer les cadres de responsabilité et favoriser involontairement une dépendance psychologique.
En réponse à ces nouvelles menaces, les ingénieurs d’OpenAI auraient renforcé une série de mesures de protection. Ces mesures comprennent une modélisation complète des menaces, une formation au refus de double usage — qui enseigne au modèle à rejeter les requêtes nuisibles impliquant des données ayant des applications à la fois bénéfiques et malveillantes —, des programmes de primes aux bogues et une « red-teaming » experte, un processus d’attaque active du système pour identifier les faiblesses, avec un accent spécifique sur la biodéfense. Malgré ces efforts, une évaluation de la gestion des risques menée en juillet 2025 par SaferAI, une organisation à but non lucratif axée sur la sécurité, a qualifié les politiques de gestion des risques d’OpenAI de « faibles », leur attribuant seulement 33 % sur un total possible de 100 %. OpenAI a également reçu la note C sur l’indice de sécurité de l’IA compilé par le Future of Life Institute, une organisation de sécurité de l’IA de premier plan.