ARC AGI 3 : Pourquoi les LLM de pointe échouent aux défis humains
L’évolution rapide des grands modèles linguistiques (LLM) a récemment vu la sortie de nouvelles itérations puissantes telles que Qwen 3 MoE, Kimi K2 et Grok 4. Alors que ces avancées se poursuivent à un rythme rapide, des benchmarks robustes sont essentiels pour évaluer et comparer leurs capacités. Parmi les derniers outils à cet effet figure ARC AGI 3, un benchmark conçu pour souligner l’écart actuel entre l’intelligence humaine et l’intelligence artificielle.
Récemment publié, ARC AGI 3 est la dernière itération de la série ARC AGI, connue pour son “Benchmark de Raisonnement Interactif avec le plus grand écart entre facile pour les humains et difficile pour l’IA”. La plateforme a été lancée avec trois environnements de jeu distincts, un concours d’agents de 10 000 $ et une API d’agents IA. Les premières évaluations sur ARC AGI 3 ont montré une disparité frappante : les modèles d’IA de pointe atteignent 0 % de succès, tandis que les humains obtiennent constamment 100 %.
La série ARC AGI met les participants au défi avec des jeux de puzzle de reconnaissance de formes. Alors que ARC AGI 1 et 2 impliquent de compléter des formes à partir de paires entrée-sortie données, ARC AGI 3 introduit un jeu interactif où les joueurs doivent naviguer un bloc vers une zone cible, nécessitant souvent des étapes intermédiaires. Un aspect central de ces jeux est l’absence d’instructions ; les joueurs doivent déduire les règles uniquement en observant l’environnement et les effets de leurs actions. Cette configuration teste rigoureusement la capacité d’un agent à apprendre de nouveaux environnements, à s’adapter et à résoudre de nouveaux problèmes.
Les versions précédentes du benchmark ont montré que les LLM réalisaient des progrès significatifs. Par exemple, les modèles d’OpenAI ont démontré une performance améliorée sur ARC AGI 1, leur o1 mini obtenant 7,8 %, o3-low atteignant 75 % et le plus avancé o3-high réalisant 88 %. Cette progression indique que les modèles peuvent apprendre à s’attaquer à ces tâches de reconnaissance de formes au fil du temps.
Cependant, le taux de succès actuel de 0 % des modèles de pointe sur ARC AGI 3 met en évidence des défis fondamentaux. Plusieurs facteurs peuvent contribuer à cette difficulté :
Longueur du contexte et gestion de la mémoire : La nature interactive d’ARC AGI 3 exige une expérimentation approfondie dans un espace d’action potentiellement vaste. Les modèles doivent essayer diverses actions, observer leurs résultats, évaluer la séquence et planifier les mouvements ultérieurs. Ce processus nécessite une utilisation efficace de longues fenêtres de contexte et une gestion sophistiquée de la mémoire pour éviter de répéter des actions infructueuses et pour construire une compréhension cohérente des mécanismes du jeu. Des techniques telles que la synthèse du contexte précédent ou l’emploi de systèmes de fichiers externes pour le stockage de la mémoire pourraient être cruciales pour les améliorations futures.
Divergence par rapport aux données d’entraînement : Les tâches au sein d’ARC AGI 3 diffèrent probablement de manière significative des ensembles de données sur lesquels les LLM sont généralement entraînés. Bien qu’il y ait une tendance croissante à entraîner les LLM pour un comportement d’agent – où ils utilisent des outils et effectuent des actions –, les modèles de pointe actuels peuvent encore manquer d’une exposition suffisante aux défis uniques des environnements interactifs, de type jeu. Cela soulève une question importante quant à savoir si les LLM possèdent une véritable intelligence qui leur permet de comprendre les tâches sans indices explicites, un principe fondamental du benchmark ARC AGI.
Malgré les obstacles actuels, des améliorations significatives des performances des LLM sur ARC AGI 3 sont anticipées. Les avancées futures pourraient provenir de l’optimisation des agents IA spécifiquement pour la performance d’agent et de l’optimisation de leur utilisation de la mémoire. Ces améliorations pourraient être réalisées par des méthodes relativement rentables ou par des développements plus substantiels, tels que la sortie de LLM plus puissants et à usage général.
Il est important de reconnaître le phénomène de la “course aux benchmarks”, où les fournisseurs de LLM privilégient l’obtention de scores élevés sur des benchmarks spécifiques plutôt que de cultiver une intelligence véritablement large. Cette pratique, similaire au “reward hacking” dans l’apprentissage par renforcement, peut conduire à des modèles qui excellent dans un ensemble restreint de tâches sans nécessairement posséder une compréhension ou une adaptabilité plus profondes. L’évaluation publique des LLM repose souvent sur les performances des benchmarks et des “vibe checks” subjectifs, ce qui peut être trompeur. Les vibe checks, par exemple, ne pourraient tester qu’une petite fraction des capacités d’un modèle, souvent sur des tâches qu’il a vues de manière extensive dans ses données d’entraînement. Pour s’assurer que les modèles répondent véritablement à des cas d’utilisation spécifiques, les organisations sont encouragées à développer leurs propres ensembles de données propriétaires et non divulgués pour l’évaluation interne.
En conclusion, les benchmarks LLM sont vitaux pour l’analyse comparative et le suivi des progrès dans le domaine. ARC AGI 3 sert de nouveau benchmark convaincant, illustrant clairement un domaine où l’intelligence humaine surpasse actuellement même les LLM les plus avancés. Bien que des améliorations futures des performances des LLM sur ARC AGI 3 soient attendues, l’espoir est que ces gains seront motivés par de véritables avancées dans l’intelligence de l’IA plutôt que par une simple optimisation des scores de benchmark.