Grok 4 devance GPT-5 en raisonnement ARC-AGI, mais coûte plus cher

Decoder

Dans un développement notable au sein du domaine très compétitif de l’intelligence artificielle, Grok 4 de xAI aurait surpassé GPT-5 d’OpenAI sur le benchmark exigeant ARC-AGI-2, un test spécifiquement conçu pour évaluer les capacités de raisonnement général d’un modèle plutôt que la simple mémorisation. Cependant, cette avance inattendue de Grok 4 s’accompagne d’une mise en garde importante : un coût opérationnel substantiellement plus élevé, soulignant les compromis complexes qui émergent dans la dernière génération de grands modèles linguistiques.

Selon les données publiées par ARC Prize, l’organisation derrière le benchmark, la variante “Thinking” de Grok 4 a atteint un taux de précision d’environ 16 % sur ARC-AGI-2. Bien qu’impressionnante, cette performance a entraîné un coût allant de 2 à 4 dollars par tâche. En revanche, le modèle phare d’OpenAI, GPT-5 “High”, bien que traînant avec un score de précision de 9,9 %, s’est avéré beaucoup plus rentable à seulement 0,73 dollar par tâche. Les benchmarks ARC-AGI sont méticuleusement conçus pour privilégier le raisonnement authentique par rapport aux connaissances par cœur, évaluant les modèles non seulement sur leur capacité à résoudre des problèmes, mais aussi sur la viabilité économique de leurs solutions.

Le récit a légèrement changé sur le test moins difficile ARC-AGI-1. Ici, Grok 4 a maintenu une avance, atteignant environ 68 % de précision, suivi de près par GPT-5 à 65,7 %. Pourtant, la disparité économique était à nouveau prononcée : Grok 4 a exigé environ 1 dollar par tâche, tandis que GPT-5 a offert des performances comparables pour seulement 0,51 dollar. Cette nette différence de prix positionne actuellement GPT-5 comme l’option la plus attrayante pour les applications où la rentabilité est primordiale, bien que xAI puisse potentiellement recalibrer sa stratégie de prix pour réduire cet écart.

Au-delà de ces modèles de premier plan, le benchmark a également mis en lumière les performances de variantes plus légères et plus économiques. GPT-5 Mini d’OpenAI, par exemple, a atteint 54,3 % sur ARC-AGI-1 pour un coût de seulement 0,12 dollar, et 4,4 % sur ARC-AGI-2 pour 0,20 dollar. Le GPT-5 Nano, encore plus compact, a démontré son potentiel à très faible coût, obtenant 16,5 % sur ARC-AGI-1 et 2,5 % sur ARC-AGI-2, tous deux à un prix exceptionnellement bas de 0,03 dollar par tâche. Ces modèles plus petits soulignent l’effort de l’industrie vers des offres diversifiées, répondant à un éventail d’exigences de performance et de budget.

Pour l’avenir, ARC Prize a confirmé que des évaluations préliminaires et non officielles sont déjà en cours pour le benchmark interactif ARC-AGI-3. Ce test innovant met les modèles au défi de résoudre des tâches par essais et erreurs itératifs dans un environnement de type jeu. Si ces jeux de puzzle visuels sont souvent intuitifs à naviguer et à résoudre pour les humains, la plupart des agents d’intelligence artificielle continuent de rencontrer des difficultés, soulignant les obstacles importants qui subsistent pour atteindre une flexibilité cognitive et une résolution de problèmes adaptative véritablement humaines.

Il est crucial de contextualiser la solide performance de Grok 4 sur ces benchmarks spécifiques. Bien qu’impressionnante, elle ne l’établit pas unilatéralement comme le modèle supérieur dans toutes les applications d’IA, en particulier compte tenu de l’examen continu des méthodologies de benchmark et des pratiques concurrentielles. Il est intéressant de noter qu’OpenAI a notablement omis toute mention du ARC Prize lors de sa récente présentation de GPT-5, une rupture avec sa pratique passée où de tels benchmarks étaient souvent mis en évidence lors du lancement de nouveaux modèles.

Pour compliquer davantage le paysage concurrentiel, il y a le cas curieux du modèle o3-preview. Introduite en décembre 2024, cette variante d’OpenAI conserve toujours le score le plus élevé au test ARC-AGI-1 avec une marge considérable, atteignant près de 80 % de précision, bien qu’à un coût significativement plus élevé que ses concurrents. Des rapports ont suggéré qu’OpenAI a été contrainte de procéder à des réductions substantielles d’o3-preview pour sa version de chat ultérieure, publiquement publiée. Cette affirmation a été corroborée par ARC Prize lui-même, qui a confirmé la diminution des performances du modèle o3 disponible publiquement fin avril, soulevant des questions sur les compromis entre la capacité brute, le coût et la stratégie de déploiement public.

Les derniers résultats d’ARC-AGI brossent un tableau saisissant d’un écosystème d’IA en évolution rapide où les percées s’accompagnent souvent de compromis complexes. Alors que Grok 4 a démontré un avantage indéniable dans certaines tâches de raisonnement, GPT-5 maintient une avance convaincante en matière de rentabilité et offre une suite plus large de modèles adaptés à diverses applications. La concurrence entre les principaux développeurs d’IA reste féroce, repoussant les limites de ce que ces puissants systèmes peuvent accomplir, même si des défis fondamentaux en matière de raisonnement adaptatif persistent.