HRM: La Petite IA Qui Dépasse ChatGPT 100 Fois en Raisonnement

Un nouveau modèle d’intelligence artificielle développé par Sapient Intelligence, basée à Singapour, remet en question la philosophie dominante du « plus grand est meilleur » dans le développement de l’IA. Ce modèle innovant, nommé Modèle de Raisonnement Hiérarchique (HRM), s’inspire de l’architecture du cerveau humain pour résoudre des problèmes de raisonnement complexes avec une efficacité remarquable.

Contrairement à de nombreux grands modèles linguistiques contemporains, qui s’appuient souvent sur une architecture « peu profonde » et une incitation pas à pas de type Chaîne de Pensée (CoT), le HRM adopte une structure hiérarchique. Les chercheurs notent que les méthodes CoT peuvent être sujettes à l’échec si une seule étape tourne mal. Le HRM, en revanche, imite l’approche du cerveau avec deux modules distincts et interconnectés : un « planificateur » de haut niveau qui s’engage dans une pensée lente et stratégique (semblable à la planification d’un coup d’échecs), et un « travailleur » de bas niveau qui effectue des calculs rapides (comme la reconnaissance faciale instantanée). Cette conception permet au HRM de traiter les problèmes complexes en profondeur en une seule passe, apprenant à raisonner à partir d’un ensemble limité d’exemples sans nécessiter un pré-entraînement étendu sur de vastes ensembles de données.

Malgré sa taille remarquablement petite de seulement 27 millions de paramètres, le HRM a démontré des capacités de raisonnement supérieures dans divers benchmarks. Sur le benchmark ARC-AGI, souvent considéré comme un test de QI pour l’IA, le HRM a obtenu un score de 40,3 %, surpassant significativement le o3-mini-high d’OpenAI (34,5 %) et Claude 3.7 (21,2 %). La performance du modèle était encore plus prononcée sur des tâches spécialisées : il a résolu avec succès 55 % des puzzles Sudoku-Extreme et a trouvé le chemin optimal dans 74,5 % des labyrinthes 30x30, tandis que Claude 3.7 et o3-mini-high ont obtenu 0 % sur les deux. Pour mettre l’efficacité du HRM en perspective, le modèle GPT-1 original comptait 117 millions de paramètres, soit plus de quatre fois la taille du HRM. L’un des créateurs du HRM, Guan Wang, a souligné sa conception légère, notant qu’il peut être entraîné à résoudre des Sudokus de niveau professionnel en seulement deux heures de GPU.

Les implications du succès du HRM sont substantielles. Cela suggère que l’innovation architecturale peut produire des avancées significatives en IA, réduisant potentiellement la dépendance aux ressources computationnelles massives. Cela pourrait conduire à un déploiement d’IA plus abordable, permettant aux modèles avancés de fonctionner efficacement sur un seul GPU, et à des temps d’entraînement considérablement plus rapides, mesurés en heures plutôt qu’en mois. En outre, la conception du HRM promet des capacités de raisonnement améliorées sans la nécessité d’une infrastructure informatique prohibitive. Le code du modèle est également open-source, favorisant un accès plus large et un développement ultérieur.

Bien que certains sceptiques soutiennent que les compétences actuelles du HRM pourraient être trop spécialisées, ses premières performances indiquent une direction prometteuse pour la recherche en IA. Cette approche inspirée du cerveau fait partie d’une tendance plus large explorant des architectures d’IA alternatives, y compris les machines de pensée continue de Sakana, les LLM 1-bit (bitnets) et les modèles de diffusion, avec lesquels Google expérimente activement. Ces architectures émergentes, bien qu’actuellement à leurs premiers stades, laissent entrevoir un avenir où l’IA avancée ne sera pas exclusivement confinée aux grands centres de données, mais pourra fonctionner efficacement sur des machines locales, démocratisant l’accès à une intelligence artificielle puissante.

HRM: La Petite IA Qui Dépasse ChatGPT 100 Fois en Raisonnement

Articles Connexes

ARC AGI 3 : Pourquoi les LLM de pointe échouent aux défis humains

L'IA transforme la cybersécurité : Alertes urgentes sur les failles de sécurité du MCP

Alignement Humain de SmolVLM avec DPO : L'Optimisation par Préférence Directe