Nouveau Référentiel : Inclusion Arena classe les LLM par usage réel
Le paysage de l’intelligence artificielle évolue rapidement, avec de nouveaux grands modèles linguistiques (LLM) qui émergent à un rythme vertigineux. Pour les entreprises cherchant à intégrer ces outils puissants, le défi ne consiste pas seulement à identifier des candidats prometteurs, mais à comprendre leur véritable performance dans des applications du monde réel. Si les référentiels traditionnels ont été indispensables pour les évaluations initiales, beaucoup s’appuient sur des ensembles de données statiques ou des environnements de laboratoire contrôlés, ne parvenant souvent pas à saisir comment les modèles interagissent réellement avec les utilisateurs humains dans des contextes de production dynamiques.
Pour combler cette lacune critique, des chercheurs d’Inclusion AI, une filiale d’Ant Group d’Alibaba, ont introduit Inclusion Arena. Ce nouveau système de classement et de benchmarking de modèles déplace l’attention des capacités théoriques vers l’utilité pratique, classant les LLM en fonction des préférences réelles des utilisateurs dans des applications en direct. L’argument principal est simple : pour évaluer véritablement un LLM, il faut observer comment les gens l’utilisent et à quel point ils préfèrent ses réponses à d’autres, au-delà de la simple rétention des connaissances.
Inclusion Arena se distingue des classements établis comme MMLU et OpenLLM en intégrant son mécanisme d’évaluation directement dans les applications alimentées par l’IA. Contrairement aux plateformes de crowdsourcing, Inclusion Arena déclenche aléatoirement des “batailles de modèles” lors de dialogues multi-tours entre humains et IA au sein de ces applications du monde réel. Actuellement, le cadre est intégré à deux applications : Joyland, une application de chat de personnages, et T-Box, une application de communication éducative. Lorsque les utilisateurs interagissent avec ces applications, leurs invites sont acheminées de manière invisible vers plusieurs LLM, qui génèrent des réponses en coulisse. Les utilisateurs choisissent ensuite simplement la réponse qu’ils préfèrent, sans savoir quel modèle l’a produite. Ce feedback direct et impartial constitue la base de l’évaluation.
Le système utilise la méthode de modélisation de Bradley-Terry pour le classement, un cadre probabiliste similaire au système de classement Elo utilisé aux échecs, qui sous-tend également Chatbot Arena. Bien qu’Elo et Bradley-Terry soient tous deux aptes à inférer des capacités relatives à partir de comparaisons par paires, les chercheurs affirment que Bradley-Terry produit des classements plus stables, offrant un cadre robuste pour évaluer les capacités latentes des modèles. Cependant, la perspective de comparer de manière exhaustive un nombre important et croissant de LLM devient prohibitive en termes de calcul. Pour surmonter cela, Inclusion Arena intègre deux composants innovants : un mécanisme de “match de placement”, qui fournit un classement initial pour les modèles nouvellement enregistrés, et un “échantillonnage de proximité”, qui limite les comparaisons ultérieures aux modèles situés dans une “région de confiance” définie, maximisant ainsi le gain d’informations dans le cadre d’un budget pratique.
Les premières expériences d’Inclusion AI, basées sur des données jusqu’en juillet 2025, ont compris plus de 501 003 comparaisons par paires provenant de plus de 46 611 utilisateurs actifs à travers les deux applications intégrées. Les premières conclusions d’Inclusion Arena indiquent que Claude 3.7 Sonnet d’Anthropic, DeepSeek v3-0324, Claude 3.5 Sonnet, DeepSeek v3 et Qwen Max-0125 figuraient parmi les modèles les plus performants. Bien qu’ils reconnaissent que la portée de l’ensemble de données actuel est limitée à ces deux applications, les chercheurs visent à étendre l’écosystème par le biais d’une alliance ouverte, anticipant que davantage de données conduiront à un classement encore plus robuste et précis.
La prolifération des LLM rend de plus en plus difficile pour les entreprises de sélectionner des modèles à évaluer. Les classements comme Inclusion Arena offrent des conseils inestimables aux décideurs techniques, en mettant en évidence les modèles qui démontrent des performances supérieures dans des scénarios d’utilisation pratique. Bien que les évaluations internes soient toujours cruciales pour garantir l’efficacité d’un LLM pour des applications spécifiques, ces référentiels du monde réel offrent une image plus claire du paysage concurrentiel plus large, aidant les organisations à identifier les modèles véritablement alignés sur leurs besoins opérationnels.