GPT-5 : L'Âge de Pierre des Outils IA et le Progrès AGI

Latent

Le très attendu GPT-5 d’OpenAI est enfin arrivé, après près de deux ans de spéculations industrielles. En tant que partenaires d’accès anticipé, nous avons eu l’occasion de tester en profondeur ce nouveau modèle dans une variété d’applications, depuis notre propre plateforme, Raindrop.ai, jusqu’à des environnements de développement comme Cursor et Codex. Notre impression générale ? GPT-5 représente un profond bond vers l’Intelligence Artificielle Générale (AGI), en particulier dans le domaine de l’ingénierie logicielle, où il démontre une capacité exceptionnelle à s’attaquer à des applications complexes et à résoudre des problèmes complexes au sein de vastes bases de code, souvent en une seule tentative.

Cependant, le récit n’est pas aussi simple que d’être simplement “meilleur” sur toute la ligne. Étonnamment, GPT-5 sous-performe ses prédécesseurs, GPT-4.5 et même GPT-4o, en matière d’écriture. Dans de nombreuses tâches courantes, il ne frappera pas immédiatement les utilisateurs comme un super-génie. Ces défauts apparents, paradoxalement, illuminent un changement fondamental dans le cheminement vers l’AGI. Pour comprendre cela, nous devons remonter à l’Âge de Pierre.

Qu’est-ce qui définit l’aube de l’intelligence humaine ? Ce n’était pas de gagner une partie d’échecs ou de prouver un théorème complexe. L’Âge de Pierre est distinctement marqué par un développement crucial : les humains ont appris à utiliser des outils. Nous avons façonné des outils, et à leur tour, nos outils nous ont façonnés, modifiant fondamentalement nos capacités cognitives. L’intelligence humaine, à la base, se manifeste et est étendue par les outils. GPT-5 inaugure un nouvel Âge de Pierre pour les agents IA et les grands modèles de langage. Ce modèle ne se contente pas de utiliser des outils ; il pense avec eux et construit avec eux.

Considérez la fonction “Deep Research” d’OpenAI, une évolution significative de la recherche web de base. Alors que les versions précédentes de ChatGPT pouvaient rechercher sur le web, Deep Research a été enseignée à mener des recherches – planifier, itérer et explorer. La recherche sur le web est devenue une partie intrinsèque de son processus de pensée. GPT-5 étend cette philosophie à pratiquement tout outil auquel il peut accéder, à condition que ces outils soient conçus pour être puissants, capables et ouverts, acceptant souvent des descriptions en langage naturel comme entrée. Les outils efficaces pour GPT-5 se répartissent généralement en quatre catégories : la récupération interne (comme les systèmes RAG ou les requêtes SQL), la recherche web, les interpréteurs de code et les actions qui produisent des effets secondaires (tels que l’édition de fichiers ou le déclenchement d’éléments d’interface utilisateur). Un excellent exemple d’outil puissant est la recherche web elle-même, où GPT-5 décide quoi rechercher, et l’outil gère le comment.

Une autre avancée significative est la maîtrise de GPT-5 dans l’appel d’outils parallèle. Alors que les modèles antérieurs possédaient techniquement cette capacité, ils l’exécutaient rarement correctement ou de manière cohérente. GPT-5, cependant, démontre l’intelligence de discerner quels outils peuvent et doivent s’exécuter simultanément plutôt que séquentiellement pour une tâche donnée. Cette parallélisation réduit considérablement la latence et étend les horizons opérationnels du modèle, permettant des possibilités de produits entièrement nouvelles.

Interagir avec GPT-5 nécessite un changement de perspective. Au lieu de solliciter un “modèle”, les utilisateurs doivent se considérer comme sollicitant un “agent”. Plutôt que de précharger un contexte étendu, l’agent a besoin d’une “boussole” – une orientation claire et structurée pour naviguer dans son environnement. Par exemple, lorsque vous travaillez avec GPT-5 dans une grande base de code, il est crucial de spécifier l’objectif du projet, les fichiers pertinents, la structure organisationnelle et des critères clairs pour l’achèvement de la tâche. Si le modèle reste bloqué, un simple “Non, c’est faux” est moins efficace que de demander “Qu’avons-nous appris en essayant cela ?”. Cette approche reflète l’enseignement, car GPT-5, sans mémoire intrinsèque, doit être familiarisé avec les normes de code et recevoir des indices pour commencer chaque tâche.

Nos observations confirment que GPT-5 est un modèle très pratique, orienté vers l’industrie, distinct de la tendance plus “académique” de certains prédécesseurs. Il est remarquablement instructible et littéral, exécutant directement les requêtes plutôt que d’exhiber la “personnalité” distincte observée chez des modèles comme Claude.

Les prouesses de codage de GPT-5 sont son point fort indéniable. Lors d’un test particulièrement difficile impliquant des conflits de dépendances imbriqués lors de l’intégration de nouveaux SDK, GPT-5 a résolu le problème en une seule tentative, un exploit qui a échappé à Claude Opus et à d’autres modèles avancés. GPT-5 a abordé cela comme un chercheur chevronné, examinant les dossiers, exécutant des commandes de diagnostic, prenant des notes et faisant des pauses pour raisonner lorsque des incohérences surgissaient, modifiant finalement les lignes nécessaires dans plusieurs répertoires avec précision. Ce débogage itératif, basé sur le raisonnement, contrastait fortement avec les approches par essais et erreurs des autres modèles. D’autres démonstrations de ses capacités de codage incluaient la génération d’un site web complet sur le thème de Mac OS 9 utilisant du pur HTML, CSS et JavaScript, avec une application de peinture fonctionnelle et un stockage de données persistant – le tout créé à partir d’une seule invite et étonnamment robuste. Pour les applications prêtes pour la production, GPT-5 a également excellé, générant une requête Clickhouse complexe et un site web full-stack avec une base de données SQLite en une seule invite, une tâche où d’autres modèles ne fournissaient souvent que des plans ou des échafaudages incomplets.

L’utilisation améliorée des outils, le traitement parallèle et l’efficacité des coûts de GPT-5 le rendent particulièrement adapté au développement d’agents IA de longue durée. Notre entreprise, une société de surveillance IA, a longtemps cherché à intégrer un agent fiable dans son produit. Les capacités de GPT-5, y compris sa meilleure récupération après des échecs d’appel d’outils et sa capacité à discerner quand générer des graphiques plutôt que des diagrammes, ont finalement rendu cela une réalité pratique, permettant un déploiement bêta auprès des clients.

Cependant, GPT-5 n’est pas un bon écrivain. En fait, GPT-4.5 et DeepSeek R1 le surpassent significativement. Pour l’écriture professionnelle, comme l’affinage des publications LinkedIn, GPT-4.5 adhère plus étroitement au ton de l’utilisateur, fournissant un texte utilisable, tandis que GPT-5 tend vers un style générique, “LinkedIn-slop”. De même, pour une écriture personnelle moins structurée, GPT-4.5 maintient un ton plus authentique, sonnant moins comme une sortie typique de LLM.

En conclusion, notre expérience pratique s’aligne avec les benchmarks officiels d’OpenAI : GPT-5 est sans équivoque le modèle de codage leader mondial. Il a fait progresser l’automatisation de l’ingénierie logicielle d’environ 65% à environ 72%, marquant le bond le plus significatif depuis GPT-3.5 Sonnet. Alors que les développeurs saisiront immédiatement son impact profond, les utilisateurs généraux n’apprécieront peut-être pas pleinement ses capacités avant qu’il ne soit intégré de manière transparente dans les produits quotidiens au cours des prochains mois.