La Visión de GPT-5: VLM de Vanguardia, No un Nuevo SOTA
El tan esperado GPT-5 de OpenAI ha sido sometido recientemente a una rigurosa evaluación de sus capacidades de visión y razonamiento visual, con investigadores de Roboflow poniendo a prueba el nuevo modelo. Si bien GPT-5 demuestra avances formidables en la comprensión visual general, la evaluación inicial sugiere que su rendimiento en tareas de reconocimiento y localización visual se alinea estrechamente con los mejores modelos actualmente disponibles, en lugar de establecer un nuevo estado del arte. Curiosamente, la evaluación reveló que GPT-5-Mini logró puntuaciones de visión idénticas a las de su contraparte más grande, lo que es un testimonio de lo que los evaluadores describen como un enrutador de modelos efectivo en funcionamiento.
La integración de una comprensión visual robusta en los grandes modelos de lenguaje (LLM) ha sido durante mucho tiempo un obstáculo significativo. Muchos modelos aún luchan con tareas aparentemente simples, como contar con precisión objetos específicos en una fotografía o identificar con exactitud la ubicación de elementos dentro de una imagen. Sin embargo, la capacidad de los LLM para interpretar e interactuar con el mundo real en tiempo real se considera un avance crítico, allanando el camino para la robótica autónoma, una interacción humano-computadora más intuitiva y el potencial para una superinteligencia personalizada.
El panorama actual de los modelos de lenguaje de visión (VLM) incluye ofertas de actores importantes como OpenAI (series GPT y ‘o’), Google (Gemini), Anthropic (Claude) y Meta (Llama). Estos modelos exhiben diferentes fortalezas y debilidades en diversas tareas visuales. Generalmente, se desempeñan bien en desafíos sencillos como leer texto de letreros, recibos o CAPTCHAs, y comprender colores. Sin embargo, las demandas más complejas —incluyendo el conteo preciso, la comprensión espacial, la detección detallada de objetos y el análisis documental exhaustivo— revelan inconsistencias significativas en el rendimiento, particularmente cuando los datos de preentrenamiento subyacentes pueden carecer de ejemplos suficientes para estos escenarios específicos.
Para abordar los desafíos de comparar el rendimiento en diversas tareas, Roboflow lanzó Vision Checkup, una tabla de clasificación de evaluación de código abierto diseñada para evaluar el “rendimiento de frontera en tareas difíciles”. Los modelos de OpenAI dominan consistentemente esta tabla de clasificación, con GPT-5 asegurando ahora un lugar entre los cinco primeros. Este sólido desempeño se atribuye principalmente a las capacidades avanzadas de razonamiento de los modelos, desarrolladas durante su extenso preentrenamiento y refinadas durante las pruebas. Esto marca una evolución crucial en los LLM multimodales: la capacidad mejorada de razonar tanto con información textual como visual. No obstante, las puntuaciones pueden fluctuar debido a la naturaleza no determinista de los modelos de razonamiento, donde la misma solicitud podría producir respuestas diferentes. Además, la implementación en el mundo real del razonamiento de imágenes enfrenta limitaciones prácticas, ya que el procesamiento de una imagen puede tardar más de 10 segundos, y la variabilidad de las respuestas hace que sean difíciles de usar en aplicaciones en tiempo real. Los desarrolladores a menudo se enfrentan a una compensación entre velocidad y capacidad integral, optando a veces por modelos más rápidos y más enfocados.
Para ir más allá de las “verificaciones de ambiente” generales y proporcionar una evaluación más rigurosa de cuán bien los LLM comprenden realmente el mundo real, Roboflow introdujo un nuevo punto de referencia en la conferencia CVPR de este año: RF100-VL. Este punto de referencia comprende 100 conjuntos de datos de código abierto que presentan cajas delimitadoras de detección de objetos, instrucciones multimodales de pocas tomas, ejemplos visuales y descripciones textuales ricas en nuevos dominios de imágenes. En RF100-VL, los LLM principales generalmente han obtenido una puntuación inferior a 10 en la métrica mAP50:95, una medida clave de la precisión de la detección de objetos. Gemini 2.5 Pro de Google lidera actualmente entre los LLM, logrando un mAP50:95 de 13.3 en cero tomas.
En marcado contraste, GPT-5 registró una puntuación mAP50:95 de solo 1.5 en el punto de referencia RF100-VL. Esta disparidad significativa se atribuye en gran medida a la aparente falta de datos específicos de detección de objetos en el preentrenamiento de GPT-5. Por ejemplo, en una evaluación que involucró un conjunto de datos de voleibol, GPT-5 demostró una clara comprensión del contenido de la imagen, identificando correctamente una pelota, bloqueadores y defensores. Sin embargo, falló consistentemente en localizar con precisión estos objetos, con cajas delimitadoras a menudo desalineadas o de tamaño incorrecto. Este patrón, también observado en otros conjuntos de datos como uno que presenta ovejas, indica que si bien el modelo comprende la escena visual, lucha con la “conexión a tierra” de objetos específicos dentro de ella, una consecuencia directa de un preentrenamiento insuficiente en detección de objetos. De manera similar, GPT-5 no mostró una mejora significativa en la calidad cuando se evaluó en conjuntos de datos de elementos de interfaz de usuario.
Si bien GPT-5 representa una ligera mejora con respecto a los modelos anteriores de OpenAI, como GPT-4o, para tareas visuales más simples, y se beneficia de instrucciones más detalladas, su rendimiento en el RF100-VL destaca una distinción crítica: la comprensión no equivale a una localización precisa. Las capacidades de razonamiento mejoradas, que impulsan a GPT-5 a la cima de la tabla de clasificación de Vision Checkup, no se traducen en una mejor detección de objetos en RF100-VL, incluso cuando se aumenta el “esfuerzo de razonamiento”. Esto subraya un camino claro a seguir para los modelos de lenguaje de visión: la próxima generación no solo debe procesar la información visual más profundamente, sino también identificar y comprender con precisión los objetos dentro del contexto del mundo real, yendo más allá de la comprensión abstracta hacia una comprensión tangible y localizada.