Grok 4 supera a GPT-5 en ARC-AGI, pero GPT-5 gana en valor
En un desarrollo notable en el campo ferozmente competitivo de la inteligencia artificial, se ha informado que Grok 4 de xAI ha superado a GPT-5 de OpenAI en el exigente benchmark ARC-AGI-2, una prueba diseñada específicamente para evaluar las capacidades de razonamiento general de un modelo en lugar de la mera memorización. Sin embargo, este liderazgo inesperado de Grok 4 viene con una advertencia significativa: un costo operativo sustancialmente más alto, lo que subraya las complejas compensaciones que surgen en la última generación de grandes modelos de lenguaje.
Según los datos publicados por ARC Prize, la organización detrás del benchmark, la variante “Thinking” de Grok 4 logró una tasa de precisión de aproximadamente el 16 por ciento en ARC-AGI-2. Si bien es impresionante, este rendimiento incurrió en un costo que oscila entre $2 y $4 por tarea. En contraste, el modelo insignia de OpenAI, GPT-5 “High”, aunque se quedó atrás con una puntuación de precisión del 9.9 por ciento, resultó ser mucho más rentable con solo $0.73 por tarea. Los benchmarks ARC-AGI están meticulosamente diseñados para priorizar el razonamiento genuino sobre el conocimiento de memoria, evaluando los modelos no solo por su capacidad para resolver problemas, sino también por la viabilidad económica de sus soluciones.
La narrativa cambió ligeramente en la prueba menos desafiante ARC-AGI-1. Aquí, Grok 4 mantuvo una ventaja, alcanzando aproximadamente el 68 por ciento de precisión, seguido de cerca por GPT-5 con un 65.7 por ciento. Sin embargo, la disparidad económica fue pronunciada una vez más: Grok 4 exigió alrededor de $1 por tarea, mientras que GPT-5 ofreció un rendimiento comparable por solo $0.51. Esta marcada diferencia de precio actualmente posiciona a GPT-5 como la opción más atractiva para aplicaciones donde la rentabilidad es primordial, aunque xAI podría recalibrar su estrategia de precios para reducir esta brecha.
Más allá de estos modelos de primer nivel, el benchmark también arrojó luz sobre el rendimiento de variantes más ligeras y económicas. GPT-5 Mini de OpenAI, por ejemplo, logró un 54.3 por ciento en ARC-AGI-1 con un costo de solo $0.12, y un 4.4 por ciento en ARC-AGI-2 por $0.20. El aún más compacto GPT-5 Nano demostró su potencial de costo ultrabajo, obteniendo un 16.5 por ciento en ARC-AGI-1 y un 2.5 por ciento en ARC-AGI-2, ambos a un precio excepcionalmente bajo de $0.03 por tarea. Estos modelos más pequeños destacan el impulso de la industria hacia ofertas diversificadas, que atienden a un espectro de requisitos de rendimiento y presupuesto.
De cara al futuro, ARC Prize ha confirmado que las evaluaciones preliminares no oficiales ya están en marcha para el benchmark interactivo ARC-AGI-3. Esta innovadora prueba desafía a los modelos a resolver tareas mediante prueba y error iterativas dentro de un entorno similar a un juego. Si bien estos juegos de rompecabezas visuales suelen ser intuitivos para que los humanos los naveguen y resuelvan, la mayoría de los agentes de inteligencia artificial siguen teniendo dificultades, lo que subraya los importantes obstáculos que aún persisten para lograr una flexibilidad cognitiva y una resolución adaptativa de problemas verdaderamente humanas.
Es crucial contextualizar el sólido rendimiento de Grok 4 en estos benchmarks específicos. Si bien es impresionante, no lo establece unilateralmente como el modelo superior en todas las aplicaciones de IA, particularmente dada la continua supervisión de las metodologías de los benchmarks y las prácticas competitivas. Curiosamente, OpenAI omitió notablemente cualquier mención del ARC Prize durante su reciente presentación de GPT-5, una desviación de su práctica pasada donde tales benchmarks a menudo se destacaban durante los lanzamientos de nuevos modelos.
Complicando aún más el panorama competitivo está el curioso caso del modelo o3-preview. Introducido en diciembre de 2024, esta variante de OpenAI aún conserva la puntuación más alta en la prueba ARC-AGI-1 por un margen considerable, logrando casi un 80 por ciento de precisión, aunque a un costo significativamente más alto que sus competidores. Los informes sugirieron que OpenAI se vio obligada a realizar reducciones sustanciales en o3-preview para su versión de chat posterior, lanzada públicamente. Esta afirmación fue corroborada posteriormente por el propio ARC Prize, que confirmó el rendimiento disminuido del modelo o3 disponible públicamente a fines de abril, lo que plantea preguntas sobre las compensaciones entre la capacidad bruta, el costo y la estrategia de implementación pública.
Los últimos resultados de ARC-AGI pintan una imagen vívida de un ecosistema de IA en rápida evolución donde los avances a menudo van acompañados de complejas compensaciones. Si bien Grok 4 ha demostrado una ventaja innegable en ciertas tareas de razonamiento, GPT-5 mantiene un liderazgo convincente en rentabilidad y ofrece un conjunto más amplio de modelos adaptados para diversas aplicaciones. La competencia entre los principales desarrolladores de IA sigue siendo feroz, superando los límites de lo que estos potentes sistemas pueden lograr, incluso mientras persisten los desafíos fundamentales en el razonamiento adaptativo.