L'Ambition d'Agents d'OpenAI : Des Compétences en Maths à l'IA Générale
Lorsque Hunter Lightman a rejoint OpenAI en tant que chercheur en 2022, il a été témoin de l’ascension rapide de ChatGPT, l’un des produits à la croissance la plus rapide de l’histoire. Pendant ce temps, Lightman faisait partie d’une équipe, connue sous le nom de MathGen, travaillant discrètement sur un défi fondamental : enseigner aux modèles d’OpenAI à exceller dans les compétitions de mathématiques du secondaire. Cet effort s’avérerait essentiel pour la poursuite par OpenAI, leader de l’industrie, des modèles de raisonnement IA – la technologie de base requise pour les agents IA capables d’effectuer des tâches informatiques complexes à la manière d’un humain.
« Nous essayions de rendre les modèles meilleurs en raisonnement mathématique, ce pour quoi ils n’étaient pas très doués à l’époque », a expliqué Lightman, revenant sur les premiers travaux de MathGen. Si les systèmes d’IA actuels d’OpenAI sont toujours confrontés à des défis comme les « hallucinations » et des difficultés avec des tâches très complexes, leurs capacités de raisonnement mathématique ont considérablement progressé. L’un des modèles d’OpenAI a récemment remporté une médaille d’or aux Olympiades Internationales de Mathématiques, une compétition prestigieuse pour les meilleurs lycéens. OpenAI pense que ces capacités de raisonnement améliorées se traduiront dans divers domaines, ouvrant finalement la voie aux agents à usage général que l’entreprise envisage depuis longtemps.
Contrairement à ChatGPT, qui est apparu comme un « heureux accident », passant d’un aperçu de recherche discret à un produit grand public viral, le développement d’agents IA par OpenAI est une entreprise délibérée et pluriannuelle. Comme l’a déclaré Sam Altman, PDG d’OpenAI, lors de la première conférence des développeurs de l’entreprise en 2023 : « À terme, vous demanderez simplement à l’ordinateur ce dont vous avez besoin et il fera toutes ces tâches pour vous. Ces capacités sont souvent désignées dans le domaine de l’IA comme des agents. Les avantages de cela seront énormes. »
Il reste à voir si les agents réaliseront pleinement la vision ambitieuse d’Altman. Cependant, OpenAI a eu un impact significatif avec le lancement de son premier modèle de raisonnement IA, o1, à l’automne 2024. Moins d’un an plus tard, les 21 chercheurs fondateurs à l’origine de cette percée sont devenus certains des talents les plus recherchés de la Silicon Valley. Notamment, Mark Zuckerberg a recruté cinq des chercheurs de o1 pour la nouvelle unité de Meta axée sur la superintelligence, offrant des packages de rémunération dépassant les 100 millions de dollars. L’un d’eux, Shengjia Zhao, a récemment été nommé scientifique en chef des Meta Superintelligence Labs.
L’essor des modèles de raisonnement et des agents d’OpenAI est profondément lié à une technique d’entraînement en apprentissage automatique connue sous le nom d’apprentissage par renforcement (RL). Le RL fournit aux modèles d’IA des retours sur la justesse de leurs choix dans des environnements simulés. Cette technique est utilisée depuis des décennies, démontrée de manière célèbre en 2016 lorsque l’AlphaGo de Google DeepMind, un système d’IA entraîné avec le RL, a attiré l’attention mondiale en battant un champion du monde au jeu de Go. Vers l’époque du triomphe d’AlphaGo, Andrej Karpathy, l’un des premiers employés d’OpenAI, a commencé à explorer comment le RL pourrait être utilisé pour créer un agent d’IA capable d’utiliser un ordinateur. Cependant, il faudrait des années à OpenAI pour développer les modèles et les techniques d’entraînement nécessaires.
En 2018, OpenAI avait été le pionnier de son premier grand modèle linguistique de la série GPT, pré-entraîné sur de vastes données Internet. Si les modèles GPT excellaient dans le traitement de texte, menant finalement à ChatGPT, ils avaient initialement du mal avec les mathématiques de base. Une percée significative a eu lieu en 2023, baptisée en interne « Q* » et plus tard « Strawberry ». Cela impliquait la combinaison de grands modèles linguistiques (LLM), de l’apprentissage par renforcement et d’une technique appelée calcul au moment du test (test-time computation). Cette dernière fournissait aux modèles du temps et une puissance de traitement supplémentaires pour planifier et résoudre des problèmes, vérifiant leurs étapes avant de fournir une réponse. Cette innovation a également permis une nouvelle approche appelée « chaîne de pensée » (CoT), qui a considérablement amélioré les performances de l’IA sur des questions de mathématiques inconnues.
« Je pouvais voir le modèle commencer à raisonner », a noté El Kishky, un chercheur. « Il remarquait les erreurs et faisait marche arrière, il se frustrait. On avait vraiment l’impression de lire les pensées d’une personne. » Bien que les techniques individuelles n’aient pas été entièrement nouvelles, la combinaison unique d’OpenAI de celles-ci a directement conduit à Strawberry, ce qui a à son tour ouvert la voie à o1. L’entreprise a rapidement reconnu que les capacités de planification et de vérification des faits inhérentes à ces modèles de raisonnement IA pourraient être inestimables pour alimenter les agents IA. « Nous avions résolu un problème contre lequel je me heurtais depuis quelques années », a raconté Lightman, le décrivant comme l’un des moments les plus excitants de sa carrière de chercheur.
Avec l’avènement des modèles de raisonnement IA, OpenAI a identifié deux nouvelles voies pour améliorer l’IA : appliquer plus de puissance de calcul pendant le post-entraînement et donner aux modèles plus de temps et de puissance de traitement lors de la génération d’une réponse. « OpenAI, en tant qu’entreprise, réfléchit beaucoup non seulement à la façon dont les choses sont, mais aussi à la façon dont elles vont évoluer », a expliqué Lightman. Suite à la percée de Strawberry en 2023, OpenAI a créé une équipe « Agents », dirigée par le chercheur Daniel Selsam, pour faire progresser ce nouveau paradigme. Le travail de cette équipe a finalement été intégré au projet plus vaste du modèle de raisonnement o1, avec des leaders clés, notamment le cofondateur d’OpenAI Ilya Sutskever, le directeur de recherche Mark Chen et le scientifique en chef Jakub Pachocki.
Le développement d’o1 a nécessité de détourner des ressources précieuses, principalement des talents et des GPU. Tout au long de l’histoire d’OpenAI, les chercheurs ont souvent dû négocier pour obtenir des ressources, et la démonstration de percées était une méthode éprouvée pour les sécuriser. « L’une des composantes fondamentales d’OpenAI est que tout dans la recherche est ascendant », a déclaré Lightman. « Quand nous avons montré les preuves [pour o1], l’entreprise a dit : ‘C’est logique, poussons là-dessus.’ » Certains anciens employés suggèrent que la mission globale de la startup de développer l’Intelligence Artificielle Générale (AGI) a été un facteur clé pour réaliser des percées dans les modèles de raisonnement IA. En priorisant le développement des modèles d’IA les plus intelligents possibles plutôt que la commercialisation immédiate, OpenAI a pu investir massivement dans o1, un luxe qui n’est pas toujours accordé aux laboratoires d’IA concurrents. Cette décision d’adopter de nouvelles méthodes d’entraînement s’est avérée prémonitoire, car fin 2024, plusieurs laboratoires d’IA de premier plan ont commencé à observer des rendements décroissants des modèles créés par la mise à l’échelle traditionnelle du pré-entraînement. Aujourd’hui, une grande partie de l’élan du domaine de l’IA provient des avancées dans les modèles de raisonnement.
Le concept de « raisonnement » de l’IA soulève des questions philosophiques. À bien des égards, l’objectif ultime de la recherche en IA est d’émuler l’intelligence humaine. Depuis le lancement d’o1, l’expérience utilisateur de ChatGPT a incorporé des fonctionnalités plus humaines, comme la « pensée » et le « raisonnement ». Lorsqu’on lui a demandé si les modèles d’OpenAI raisonnent vraiment, El Kishky a offert une perspective informatique : « Nous enseignons au modèle comment dépenser efficacement le calcul pour obtenir une réponse. Donc, si vous le définissez ainsi, oui, il raisonne. » Lightman se concentre sur les résultats des modèles plutôt que d’établir des parallèles directs avec le cerveau humain. « Si le modèle fait des choses difficiles, alors il fait l’approximation nécessaire du raisonnement dont il a besoin pour cela », a-t-il déclaré. « Nous pouvons l’appeler raisonnement, parce que cela ressemble à ces traces de raisonnement, mais tout cela n’est qu’un substitut pour essayer de créer des outils d’IA qui sont vraiment puissants et utiles à beaucoup de gens. » Bien que les chercheurs d’OpenAI reconnaissent des désaccords potentiels sur leurs définitions du raisonnement – et, en effet, des critiques ont émergé – ils soutiennent que les capacités des modèles sont primordiales. D’autres chercheurs en IA ont tendance à être d’accord. Nathan Lambert, un chercheur en IA de l’organisation à but non lucratif AI2, compare les modèles de raisonnement IA aux avions, notant que les deux sont des systèmes fabriqués par l’homme inspirés par la nature (raisonnement humain et vol d’oiseau, respectivement) mais fonctionnent par des mécanismes entièrement différents. Cela ne diminue en rien leur utilité ou leur capacité à atteindre des résultats similaires. Un récent document de position rédigé par des chercheurs en IA d’OpenAI, Anthropic et Google DeepMind a collectivement convenu que les modèles de raisonnement IA ne sont pas encore entièrement compris, nécessitant des recherches supplémentaires. Il est peut-être trop tôt pour affirmer définitivement ce qui se passe à l’intérieur d’eux.
Actuellement, les agents IA sur le marché performent le mieux dans des domaines bien définis et vérifiables, tels que le codage. L’agent Codex d’OpenAI aide les ingénieurs logiciels avec des tâches de codage simples, tandis que les modèles d’Anthropic ont gagné en popularité dans les outils de codage IA comme Cursor et Claude Code, devenant certains des premiers agents IA pour lesquels les utilisateurs sont prêts à payer. Cependant, les agents IA à usage général, tels que l’agent ChatGPT d’OpenAI et Comet de Perplexity, ont toujours du mal avec de nombreuses tâches complexes et subjectives que les gens souhaitent automatiser. Les tentatives d’utiliser ces outils pour le shopping en ligne ou la recherche de stationnement de longue durée entraînent souvent des temps de traitement prolongés et des « erreurs bêtes ».
Ces premiers systèmes d’agents sont sans aucun doute destinés à s’améliorer. Cependant, les chercheurs doivent d’abord résoudre la question de savoir comment mieux entraîner les modèles sous-jacents pour accomplir des tâches plus subjectives. « Comme de nombreux problèmes en apprentissage automatique, c’est un problème de données », a commenté Lightman sur les limites des agents dans les domaines subjectifs. « Certaines des recherches qui m’enthousiasment vraiment en ce moment consistent à comprendre comment s’entraîner sur des tâches moins vérifiables. Nous avons quelques pistes sur la façon de faire ces choses. » Noam Brown, un chercheur d’OpenAI qui a contribué à la fois au modèle IMO et à o1, a expliqué qu’OpenAI possède de nouvelles techniques de RL à usage général qui leur permettent d’enseigner aux modèles d’IA des compétences difficilement vérifiables. Cette approche a été essentielle pour construire le modèle qui a obtenu une médaille d’or à l’IMO. Le modèle IMO d’OpenAI, un système d’IA plus récent, génère plusieurs agents qui explorent simultanément diverses idées avant de sélectionner la réponse optimale. Cette approche multi-agents gagne du terrain, Google et xAI ayant récemment publié des modèles de pointe utilisant des techniques similaires. « Je pense que ces modèles deviendront plus performants en mathématiques, et je pense qu’ils deviendront également plus performants dans d’autres domaines de raisonnement », a déclaré Brown. « Les progrès ont été incroyablement rapides. Je ne vois aucune raison de penser que cela ralentira. »
Ces avancées pourraient entraîner des gains de performance dans le prochain modèle GPT-5 d’OpenAI. OpenAI espère que GPT-5 affirmera sa domination sur ses concurrents en offrant le meilleur modèle d’IA pour alimenter les agents, tant pour les développeurs que pour les consommateurs. Au-delà de la capacité brute, l’entreprise vise également à simplifier l’utilisation du produit. El Kishky a noté qu’OpenAI cherche à développer des agents IA qui comprennent intuitivement l’intention de l’utilisateur, éliminant ainsi le besoin de réglages spécifiques. L’objectif est de construire des systèmes IA qui savent quand utiliser certains outils et combien de temps « raisonner » pour une tâche donnée.
Ces idées peignent le tableau du ChatGPT ultime : un agent capable d’effectuer n’importe quelle tâche sur Internet pour vous, tout en comprenant intuitivement vos préférences. Cette vision représente une évolution significative du ChatGPT d’aujourd’hui, et la recherche d’OpenAI s’oriente sans équivoque dans cette direction. Si OpenAI a indéniablement mené l’industrie de l’IA il y a quelques années, l’entreprise est désormais confrontée à un formidable éventail de concurrents. La question cruciale n’est plus seulement de savoir si OpenAI peut réaliser son futur agentique, mais si elle peut le faire avant que des rivaux comme Google, Anthropic, xAI ou Meta ne l’atteignent en premier.