GPT-5 vs GPT-4o: ¿Es la última IA de OpenAI una mejora real?
La reciente presentación de GPT-5 por parte de OpenAI ha desatado un considerable debate en el panorama tecnológico. Mientras algunos alaban sus capacidades avanzadas, otros señalan supuestas deficiencias, llevando a muchos a cuestionar si este nuevo modelo insignia realmente supera a su aclamado predecesor, GPT-4o. Para muchos usuarios, GPT-4o se había convertido en el modelo de lenguaje grande (LLM) indispensable para una amplia gama de tareas, desde resumir texto y generar imágenes hasta el análisis de datos complejos. Con GPT-5 ahora posicionado como su sucesor, se justifica una evaluación crítica para determinar si esta actualización representa un verdadero salto evolutivo o un lanzamiento potencialmente prematuro que podría disminuir el amplio atractivo de ChatGPT.
Para comprender los matices de esta transición, es esencial recapitular lo que cada modelo aporta. GPT-4o, lanzado en mayo de 2024, fue un LLM multimodal innovador, que significó un cambio importante en cómo los usuarios interactuaban con ChatGPT. Apodado “omni” por su capacidad para procesar sin problemas texto, imágenes y audio, ofrecía capacidades mejoradas de codificación y análisis visual, junto con un robusto reconocimiento y análisis de voz. Sus características notables incluían una mayor velocidad de procesamiento, una menor latencia de respuesta y la generación de respuestas notablemente naturales y coherentes, junto con la capacidad de acceder a herramientas externas y proporcionar información en tiempo real.
Un año después, en agosto de 2025, OpenAI presentó GPT-5 como su modelo más avanzado hasta la fecha. Esta última iteración amplía la base multimodal de GPT-4o al agregar capacidades de procesamiento de video. GPT-5 introduce novedosas “capacidades de agente”, que le permiten planificar y ejecutar tareas complejas de forma autónoma, y presenta un “sistema unificado” que determina inteligentemente si una consulta requiere un razonamiento profundo o un procesamiento más básico. Adoptando un enfoque de “aprender haciendo”, GPT-5 está diseñado para ser más empático, aunque exhibe menos complacencia que los modelos anteriores. También cuenta con una destreza significativamente mejorada en codificación y escritura.
Una comparación directa de sus especificaciones técnicas revela la ambición de GPT-5. Mientras que GPT-4o ofrecía una ventana de contexto sustancial de aproximadamente 128,000 tokens tanto para ChatGPT como para el uso de API, GPT-5 casi duplica esto, proporcionando 256,000 tokens para ChatGPT y unos impresionantes 400,000 tokens para su API, lo que le permite procesar volúmenes de información mucho mayores. GPT-5 también introduce un sistema de razonamiento de doble modo —alternando entre razonamiento rápido y profundo— en contraste con el modo de razonamiento único de GPT-4o. Además, OpenAI afirma que GPT-5 tiene la tasa de alucinaciones más baja hasta el momento, una mejora significativa con respecto a la ya baja tasa de GPT-4o. GPT-5 también introduce características de personalización como preajustes de personalidad y control de tono, y se integra con una gama más amplia de herramientas, incluyendo Gmail y Calendar, yendo más allá del acceso a herramientas más limitado de GPT-4o. Para aplicaciones empresariales, GPT-5 ofrece “completados seguros”, proporcionando respuestas acotadas y útiles, una característica ausente en GPT-4o. Las pruebas de referencia subrayan los avances de GPT-5 en la resolución de problemas complejos: su precisión verificada en SWE-bench es del 74.9% en comparación con el 30.8% de GPT-4o; en la prueba de matemáticas AIME 2025, GPT-5 logró el 94.6% (sin herramientas) frente al 71% de GPT-4o; y mejoró significativamente en VideoMMMU (81.1% vs. 58.8%) y HealthBench (46.2% vs. 31.6%). Estas métricas sugieren que GPT-5 está diseñado para razonamiento complejo y flujos de trabajo empresariales, mientras que GPT-4o sigue optimizado para la interacción en tiempo real y tareas creativas.
Someter a ambos modelos a diversas tareas revela una imagen matizada de su rendimiento. En la creación de contenido, GPT-5 demostró ser superior para generar resúmenes concisos y a nivel de experto, fusionando puntos de manera efectiva para proporcionar el contexto suficiente a un lector informado. GPT-4o, por el contrario, proporcionó un resumen más detallado y paso a paso de todos los puntos discutidos en el material fuente. Para la generación de imágenes, ambos modelos funcionaron bien. GPT-5 produjo imágenes más vibrantes con colores, texto e iconos que resaltaban, aunque exhibió un pequeño error con una conexión de flecha. GPT-4o generó imágenes con colores sólidos, lo que las hacía menos vibrantes, pero notablemente incluyó fuentes de entrada y salida de audio bien integradas.
En cuanto a la codificación, GPT-5 demostró una clara ventaja. Aunque tardó un tiempo en procesar la consulta para un sitio web de conteo de palabras, su resultado final fue impresionante, entregando una página web completamente funcional con una interfaz de usuario y experiencia (UI/UX) refinada y características adicionales. La salida de GPT-4o, en comparación, se sintió básica y anticuada, ofreciendo solo la funcionalidad principal de conteo de palabras sin refinamientos estilísticos. En el análisis de imágenes, GPT-5 analizó eficientemente un diagrama de circuito, identificando correctamente sus componentes, extrayendo valores y aplicando la lógica adecuada para calcular la corriente y el voltaje de salida. GPT-4o tuvo dificultades significativas con esta tarea, reconociendo solo la forma de onda de salida pero sin poder extraer los valores críticos necesarios para los cálculos.
Finalmente, en un desafío de razonamiento que involucraba un rompecabezas de Sudoku, GPT-5 inicialmente tuvo problemas con la interpretación de la imagen, requiriendo más de tres minutos y la confirmación manual de múltiples valores. Sin embargo, una vez asistido, procesó y resolvió el rompecabezas correctamente. GPT-4o, por el contrario, falló por completo, rellenando todos los valores faltantes con ceros.
La batalla entre GPT-5 y GPT-4o no arroja un ganador claro, ya que el rendimiento varía significativamente según la tarea. GPT-5 domina demostrablemente en tareas complejas como la codificación y el razonamiento avanzado, donde sus capacidades mejoradas brillan. Sin embargo, GPT-4o sigue manteniéndose firme en áreas como la creación de contenido y la generación/análisis de imágenes. Una diferencia notable también radica en su ritmo operativo: GPT-4o generalmente ofrece respuestas más rápidas, mientras que GPT-5 a veces muestra vacilación, presumiblemente realizando un análisis más exhaustivo antes de generar una salida. Si bien GPT-5 se beneficia de datos de entrenamiento más recientes y optimizaciones de agente, la pregunta sigue siendo si sus mejoras son lo suficientemente innovadoras como para eclipsar a su querido predecesor.
En última instancia, a pesar de las mejoras incrementales de GPT-5 desde su lanzamiento, persiste un fuerte sentimiento entre los usuarios por el regreso de GPT-4o. Muchos sienten que el lanzamiento de GPT-5 fue quizás apresurado, dejando a los usuarios lidiando con la adaptación a un modelo que, para muchas tareas comunes, solo supera marginalmente a su predecesor. La diferencia percibida, a menudo descrita como “un poco mejor”, dificulta que los usuarios abandonen por completo GPT-4o. Esto sugiere que pruebas y refinamientos más rigurosos podrían haber sido beneficiosos antes del lanzamiento público de GPT-5, dejando un deseo persistente por la consistencia y la facilidad de uso que representaba GPT-4o.