La Vision de GPT-5 : VLM Pionnier, Pas Nouveau SOTA
Le très attendu GPT-5 d’OpenAI a récemment fait l’objet d’une évaluation rigoureuse de ses capacités de vision et de raisonnement visuel, avec des chercheurs de Roboflow mettant le nouveau modèle à l’épreuve. Bien que GPT-5 démontre des avancées formidables dans la compréhension visuelle générale, l’évaluation initiale suggère que ses performances dans les tâches de reconnaissance et de localisation visuelle s’alignent étroitement avec les meilleurs modèles actuellement disponibles, plutôt que d’établir un nouvel état de l’art. Fait intéressant, l’évaluation a révélé que GPT-5-Mini a obtenu des scores de vision identiques à ceux de son homologue plus grand, ce qui témoigne de ce que les évaluateurs décrivent comme un routeur de modèle efficace en action.
L’intégration d’une compréhension visuelle robuste dans les grands modèles linguistiques (LLM) a longtemps été un obstacle majeur. De nombreux modèles ont encore du mal avec des tâches apparemment simples, telles que le comptage précis d’objets spécifiques sur une photographie ou l’identification précise de l’emplacement d’éléments dans une image. Pourtant, la capacité des LLM à interpréter et à interagir avec le monde réel en temps réel est considérée comme une percée critique, ouvrant la voie à la robotique autonome, à une interaction homme-machine plus intuitive et au potentiel d’une superintelligence personnalisée.
Le paysage actuel des modèles de langage-vision (VLM) comprend des offres des principaux acteurs tels qu’OpenAI (séries GPT et ‘o’), Google (Gemini), Anthropic (Claude) et Meta (Llama). Ces modèles présentent des forces et des faiblesses variables selon les différentes tâches visuelles. Généralement, ils fonctionnent bien sur des défis simples tels que la lecture de texte à partir de panneaux, de reçus ou de CAPTCHA, et la compréhension des couleurs. Cependant, des exigences plus complexes — y compris le comptage précis, la compréhension spatiale, la détection détaillée d’objets et l’analyse documentaire complète — révèlent des incohérences de performance significatives, en particulier lorsque les données de pré-entraînement sous-jacentes peuvent manquer d’exemples suffisants pour ces scénarios spécifiques.
Pour relever les défis de la comparaison des performances entre diverses tâches, Roboflow a lancé Vision Checkup, un classement d’évaluation open-source conçu pour évaluer la « performance de pointe des tâches difficiles ». Les modèles OpenAI dominent constamment ce classement, GPT-5 occupant désormais une place parmi les cinq premiers. Cette solide performance est principalement attribuée aux capacités de raisonnement avancées des modèles, développées lors de leur vaste pré-entraînement et affinées lors des tests. Cela marque une évolution cruciale des LLM multimodaux : la capacité améliorée de raisonner à la fois sur des informations textuelles et visuelles. Néanmoins, les scores peuvent fluctuer en raison de la nature non déterministe des modèles de raisonnement, où la même invite pourrait produire des réponses différentes. De plus, le déploiement réel du raisonnement d’images fait face à des limitations pratiques, car le traitement d’une image peut prendre plus de 10 secondes, et la variabilité des réponses les rend difficiles à utiliser pour les applications en temps réel. Les développeurs sont souvent confrontés à un compromis entre la vitesse et la capacité globale, optant parfois pour des modèles plus rapides et plus ciblés.
Pour aller au-delà des simples « vérifications d’ambiance » et fournir une évaluation plus rigoureuse de la façon dont les LLM comprennent réellement le monde réel, Roboflow a introduit un nouveau benchmark lors de la conférence CVPR de cette année : RF100-VL. Ce benchmark comprend 100 ensembles de données open-source présentant des boîtes englobantes de détection d’objets, des instructions multimodales à peu d’exemples, des exemples visuels et des descriptions textuelles riches dans de nouveaux domaines d’images. Sur RF100-VL, les meilleurs LLM ont généralement obtenu un score inférieur à 10 sur la métrique mAP50:95, une mesure clé de la précision de la détection d’objets. Le Gemini 2.5 Pro de Google est actuellement en tête des LLM, atteignant un mAP50:95 de 13,3 en zéro-shot.
En contraste frappant, GPT-5 a enregistré un score mAP50:95 de seulement 1,5 sur le benchmark RF100-VL. Cette disparité significative est largement attribuée au manque apparent de données spécifiques à la détection d’objets dans le pré-entraînement de GPT-5. Par exemple, lors d’une évaluation impliquant un ensemble de données de volley-ball, GPT-5 a démontré une compréhension claire du contenu de l’image, identifiant correctement un ballon, des bloqueurs et des défenseurs. Cependant, il a constamment échoué à localiser précisément ces objets, avec des boîtes englobantes souvent mal alignées ou de taille incorrecte. Ce schéma, également observé dans d’autres ensembles de données comme celui présentant des moutons, indique que si le modèle comprend la scène visuelle, il a du mal à « ancrer » des objets spécifiques en son sein — une conséquence directe d’un pré-entraînement insuffisant en détection d’objets. De même, GPT-5 n’a montré aucune amélioration significative de la qualité lorsqu’il a été évalué sur des ensembles de données d’éléments d’interface utilisateur.
Bien que GPT-5 représente une légère amélioration par rapport aux modèles OpenAI précédents, tels que GPT-4o, pour des tâches visuelles plus simples, et bénéficie d’instructions plus détaillées, ses performances sur le RF100-VL mettent en évidence une distinction critique : la compréhension n’équivaut pas à une localisation précise. Les capacités de raisonnement améliorées, qui propulsent GPT-5 au sommet du classement Vision Checkup, ne se traduisent pas par une meilleure détection d’objets sur RF100-VL, même lorsque « l’effort de raisonnement » est augmenté. Cela souligne une voie claire pour les modèles de langage-vision : la prochaine génération doit non seulement traiter l’information visuelle plus profondément, mais aussi identifier et comprendre avec précision les objets dans le contexte du monde réel, allant au-delà de la compréhension abstraite vers une compréhension tangible et localisée.