Inclusion Arena: El nuevo estándar para clasificar LLMs en el mundo real

Venturebeat

El panorama de la inteligencia artificial está evolucionando rápidamente, con nuevos modelos de lenguaje grandes (LLM) emergiendo a un ritmo vertiginoso. Para las empresas que buscan integrar estas potentes herramientas, el desafío no radica solo en identificar candidatos prometedores, sino en comprender su verdadero rendimiento en aplicaciones del mundo real. Si bien los benchmarks tradicionales han sido indispensables para las evaluaciones iniciales, muchos dependen de conjuntos de datos estáticos o entornos de laboratorio controlados, a menudo sin lograr capturar cómo los modelos interactúan realmente con los usuarios humanos en entornos dinámicos de producción.

Para abordar esta brecha crítica, investigadores de Inclusion AI, una filial de Ant Group de Alibaba, han introducido Inclusion Arena. Este novedoso sistema de clasificación y benchmarking de modelos cambia el enfoque de las capacidades teóricas a la utilidad práctica, clasificando los LLM basándose en las preferencias reales de los usuarios en aplicaciones en vivo. El argumento central es sencillo: para evaluar genuinamente un LLM, se debe observar cómo lo usa la gente y cuánto prefieren sus respuestas sobre otras, yendo más allá de la mera retención de conocimientos.

Inclusion Arena se distingue de tablas de clasificación establecidas como MMLU y OpenLLM al integrar su mecanismo de evaluación directamente en aplicaciones impulsadas por IA. A diferencia de las plataformas de crowdsourcing, Inclusion Arena activa aleatoriamente “batallas de modelos” durante diálogos multi-turno entre humanos e IA dentro de estas aplicaciones del mundo real. Actualmente, el framework está integrado en dos aplicaciones: Joyland, una aplicación de chat de personajes, y T-Box, una aplicación de comunicación educativa. A medida que los usuarios interactúan con estas aplicaciones, sus indicaciones se enrutan de forma invisible a múltiples LLM, que generan respuestas en segundo plano. Los usuarios simplemente eligen la respuesta que más les gusta, sin saber qué modelo la produjo. Esta retroalimentación directa y sin sesgos constituye la base de la evaluación.

El sistema emplea el método de modelado Bradley-Terry para la clasificación, un marco probabilístico similar al sistema de clasificación Elo utilizado en ajedrez, que también sustenta Chatbot Arena. Si bien tanto Elo como Bradley-Terry son expertos en inferir habilidades relativas a partir de comparaciones por pares, los investigadores afirman que Bradley-Terry produce calificaciones más estables, proporcionando un marco robusto para evaluar las capacidades latentes del modelo. Sin embargo, la perspectiva de comparar exhaustivamente un número grande y creciente de LLM se vuelve computacionalmente prohibitiva. Para superar esto, Inclusion Arena incorpora dos componentes innovadores: un mecanismo de “partido de colocación”, que proporciona una clasificación inicial para los modelos recién registrados, y un “muestreo de proximidad”, que limita las comparaciones subsiguientes a modelos dentro de una “región de confianza” definida, maximizando así la ganancia de información dentro de un presupuesto práctico.

Los experimentos iniciales de Inclusion AI, basados en datos hasta julio de 2025, comprendieron más de 501.003 comparaciones por pares de más de 46.611 usuarios activos en las dos aplicaciones integradas. Los hallazgos preliminares de Inclusion Arena indican que Claude 3.7 Sonnet de Anthropic, DeepSeek v3-0324, Claude 3.5 Sonnet, DeepSeek v3 y Qwen Max-0125 estuvieron entre los modelos de mayor rendimiento. Aunque reconocen que el alcance del conjunto de datos actual se limita a estas dos aplicaciones, los investigadores tienen como objetivo expandir el ecosistema a través de una alianza abierta, anticipando que más datos conducirán a una tabla de clasificación aún más robusta y precisa.

La proliferación de LLM hace que sea cada vez más desafiante para las empresas seleccionar modelos para su evaluación. Las tablas de clasificación como Inclusion Arena ofrecen una guía invaluable para los tomadores de decisiones técnicos, destacando los modelos que demuestran un rendimiento superior en escenarios de uso práctico. Si bien las evaluaciones internas siempre serán cruciales para garantizar la efectividad de un LLM para aplicaciones específicas, estos benchmarks del mundo real proporcionan una imagen más clara del panorama competitivo más amplio, ayudando a las organizaciones a identificar modelos que realmente se alinean con sus necesidades operativas.