Le modèle o3 d'OpenAI surclasse GPT-5 sur les tâches bureautiques complexes !
Un nouveau benchmark conçu pour repousser les limites de l’intelligence artificielle dans des environnements de bureau réels a donné des résultats surprenants : le modèle o3 établi d’OpenAI a constamment surpassé son homologue plus récent, GPT-5, sur des tâches complexes et multi-applications. Cette découverte, basée sur le récent OdysseyBench, suggère que les progrès des capacités des agents IA pour des flux de travail complexes et de longue durée pourraient évoluer de manière inattendue.
Développé par des chercheurs de Microsoft et de l’Université d’Édimbourg, OdysseyBench vise à aller au-delà des “tâches atomiques” isolées (commandes simples en une seule étape) pour évaluer comment les modèles d’IA gèrent des scénarios qui se déroulent sur plusieurs jours, imitant le travail de bureau authentique. Le benchmark comprend 602 tâches, couvrant des applications populaires comme Word, Excel, PDF, les e-mails et les outils de calendrier. Ces tâches sont divisées en deux catégories principales : 300 scénarios réalistes dérivés d’OfficeBench, surnommés OdysseyBench+, et 302 situations nouvellement construites, exceptionnellement difficiles, connues sous le nom d’OdysseyBench-Neo. Les deux sections exigent que les modèles extraient des informations de conversations de plusieurs jours, formulent des plans en plusieurs étapes et synchronisent les actions entre divers outils de bureau.
Le principal défi pour ces agents IA réside dans la résolution de tâches de bureau à long terme, axées sur le dialogue. Sur OdysseyBench+ et OdysseyBench-Neo, le modèle o3 d’OpenAI est constamment apparu comme le leader par rapport à GPT-5. Sur OdysseyBench-Neo, qui présente les tâches les plus exigeantes et conçues à la main, o3 a atteint un taux de réussite de 61,26 %, surpassant significativement les 55,96 % de GPT-5 et les 57,62 % de GPT-5-chat. L’écart de performance s’est encore creusé sur les tâches nécessitant l’utilisation simultanée de trois applications, où o3 a obtenu 59,06 % contre 53,80 % pour GPT-5.
Les résultats sur OdysseyBench+ ont reflété cette tendance. Ici, o3 a obtenu 56,2 %, battant GPT-5 à 54,0 % et GPT-5-chat à 40,3 %. La disparité est devenue encore plus prononcée sur les tâches impliquant la coordination de deux ou trois applications, où la compréhension contextuelle et une planification méticuleuse sont primordiales. Fait intéressant, GPT-5-chat a inopinément surpassé GPT-5 sur OdysseyBench-Neo. Les chercheurs attribuent cela à l’accent mis par les tâches Neo sur l’assistance basée sur le dialogue, ce qui correspond aux forces conversationnelles de GPT-5-chat. Inversement, OdysseyBench+ inclut des scénarios plus fragmentés et moins conversationnels, où le GPT-5, axé sur le raisonnement, a démontré une meilleure capacité à extraire des informations pertinentes à partir d’entrées disjointes. Il convient de noter que l’étude n’a pas spécifié les paramètres de raisonnement pour GPT-5, tels que son “temps de réflexion” ou des paramètres d’agent spécifiques, et qu’aucun modèle GPT-5 Pro plus avancé n’a été inclus dans l’évaluation.
Ces découvertes ont des implications significatives, d’autant plus qu’OpenAI poursuit activement le développement d’agents IA capables de “réfléchir” pendant des heures, voire des jours, avec l’objectif ultime de générer des idées novatrices et d’automatiser la recherche dans des domaines comme la médecine et la sécurité de l’IA. OdysseyBench pourrait s’avérer être un benchmark crucial pour ces systèmes naissants à long terme. Simultanément, les résultats soulignent subtilement une décélération potentielle du rythme des progrès : bien que o3 et GPT-5 représentent des avancées claires par rapport aux modèles précédents, il n’y a pas de saut discernable de capacité de o3 à GPT-5, d’autant plus que o3 n’a été officiellement publié qu’en avril.
Un examen plus approfondi des résultats du benchmark révèle plusieurs défis persistants pour les agents IA actuels dans les flux de travail complexes. Les modèles négligent fréquemment des fichiers critiques, sautent des étapes nécessaires ou tentent d’utiliser les mauvais outils pour une tâche donnée. Par exemple, certains agents ont essayé de générer des fichiers PDF avant de créer le texte original dans Word, ou n’ont pas réussi à extraire le contenu des PDF avant de rédiger un document de révision. Les tâches impliquant la création ou l’édition de fichiers DOCX et XLSX se sont avérées particulièrement sujettes aux erreurs, exigeant une coordination précise et en plusieurs étapes – un domaine où les agents ont constamment eu des difficultés. Les chercheurs concluent que ces problèmes pointent vers un défi fondamental plus large : les agents IA d’aujourd’hui luttent toujours avec la planification précise et multi-étapes requise pour naviguer dans des tâches couvrant différents outils, délais et contextes. Pour ceux qui souhaitent approfondir, les frameworks OdysseyBench et HOMERAGENTS sont disponibles en open source sur GitHub.