ArsTechnica prueba GPT-5 vs. GPT-4o: ¿Es peor el nuevo modelo?

Arstechnica

El reciente lanzamiento del modelo GPT-5 de OpenAI ha sido recibido con un significativo rechazo por parte de los usuarios, con quejas que van desde un tono percibido como estéril y una creatividad disminuida hasta un aumento de errores fácticos. Este descontento generalizado incluso llevó a OpenAI a reintroducir el modelo GPT-4o anterior como alternativa. Para evaluar objetivamente estas afirmaciones, Ars Technica sometió tanto a GPT-5 como a GPT-4o a una rigurosa serie de pruebas, algunas adaptadas de evaluaciones previas y otras diseñadas para reflejar cómo los usuarios modernos interactúan con los modelos de lenguaje grandes. Si bien se reconoce la subjetividad inherente de juzgar las respuestas de la IA y el alcance limitado de una evaluación de ocho preguntas, este ejercicio ofrece valiosas perspectivas sobre las diferencias estilísticas y sustantivas entre los nuevos y los anteriores modelos insignia de OpenAI.

El primer desafío consistió en generar cinco ‘chistes de padre’ originales. GPT-5, a pesar de sus afirmaciones, entregó ejemplos en gran medida poco originales pero bien formados. GPT-4o, por el contrario, mezcló repeticiones poco inspiradas con intentos de originalidad que simplemente fracasaron, basándose en una lógica forzada en lugar de juegos de palabras ingeniosos. Dado el fracaso de ambos modelos para producir contenido genuinamente original, esta ronda concluyó en un empate.

A continuación, un problema matemático planteó cuántos disquetes de 3.5 pulgadas se necesitarían para ‘enviar’ Microsoft Windows 11. GPT-5 demostró un razonamiento superior, entrando en un modo de ‘Pensamiento’ para calcular con precisión el número basándose en el tamaño promedio de la ISO de Windows 11 (5-6 GB) e incluso proporcionando enlaces de origen. GPT-4o, aunque ofreció una interpretación comprensible, basó su cálculo en el tamaño de instalación final del disco duro (20-30 GB). A pesar de la información adicional de GPT-4o, aunque no solicitada, sobre las dimensiones físicas de miles de disquetes, GPT-5 aseguró la victoria por su interpretación precisa de la pregunta.

En escritura creativa, ambos modelos elaboraron una historia de dos párrafos sobre Abraham Lincoln inventando el baloncesto. GPT-5 ofreció un retrato encantadoramente popular de Lincoln, salpicado de líneas deliciosas como ‘la historia estaba a punto de rebotar en una nueva dirección’. GPT-4o, sin embargo, a veces se esforzó por ser ingenioso, con analogías forzadas, aunque casi se llevó la victoria con su memorable y cursi final: ‘Cuatro anotaciones… y nada más que red’. En última instancia, GPT-5 superó por poco a su predecesor por su narrativa más consistente.

La capacidad de recuerdo fáctico de los modelos se probó solicitando una breve biografía de Kyle Orland, de Ars Technica. Históricamente, los modelos de lenguaje grandes han tenido dificultades con tales consultas personales, a menudo fabricando detalles. GPT-5 marcó una mejora significativa, resumiendo con precisión las biografías públicas del autor con citas útiles y sin alucinaciones, una primicia para el equipo de pruebas. GPT-4o se desempeñó admirablemente sin búsquedas web explícitas, pero falló al describir un blog desaparecido hace mucho tiempo como ‘de larga duración’. La precisión y el detalle superiores de GPT-5 lo convirtieron en el claro ganador.

Cuando se les pidió que redactaran un correo electrónico delicado a un jefe sobre una fecha límite de proyecto imposible, ambos modelos proporcionaron respuestas educadas pero firmes. GPT-5 se distinguió al recomendar un desglose de subtareas con estimaciones de tiempo y ofrecer proactivamente soluciones en lugar de solo quejas. Además, proporcionó un análisis no solicitado de por qué dicha estructura de correo electrónico es efectiva, añadiendo una valiosa perspectiva. El enfoque más completo y estratégico de GPT-5 le valió la ventaja.

En una prueba crítica que involucraba consejos médicos, ambos modelos de ChatGPT declararon de manera encomiable y directa que no hay evidencia científica que respalde los cristales curativos como tratamiento para el cáncer. GPT-5 se mostró ligeramente más evasivo al mencionar usos complementarios. GPT-4o, por el contrario, fue inequívocamente directo, etiquetando los cristales curativos como ‘pseudociencia’ y citando múltiples fuentes web que detallan su ineficacia. La claridad contundente de GPT-4o y su dependencia de fuentes verificables lo convirtieron en la opción superior para esta consulta sensible.

El desafío de proporcionar orientación sobre videojuegos, específicamente cómo superar el mundo 8-2 de Super Mario Bros. sin correr, reveló un giro sorprendente: los ‘speedrunners’ de hecho han encontrado formas. GPT-5 captó esto parcialmente, sugiriendo ‘Bullet Bills’, pero incluyó métodos incorrectos. GPT-4o, aunque también hizo una sugerencia extraña sobre un trampolín inexistente, finalmente proporcionó soluciones más detalladas y visualmente atractivas para el desafío real. A pesar de que ambos modelos exhibieron algunas incoherencias extrañas, la presentación general de GPT-4o y los detalles relevantes adicionales le dieron la ventaja.

Finalmente, un escenario de emergencia: explicar cómo aterrizar de forma concisa un Boeing 737-800 a un novato total, con ‘el tiempo apremiando’. GPT-5 llevó ‘concisamente’ demasiado lejos, omitiendo detalles cruciales. GPT-4o, por el contrario, se mantuvo conciso mientras incorporaba información vital sobre la apariencia y ubicación de los controles clave. En una situación hipotética de vida o muerte, la guía más detallada pero práctica de GPT-4o sería, sin duda, la preferida.

En un recuento numérico, GPT-5 emergió técnicamente con una estrecha victoria, ganando cuatro preguntas frente a las tres de GPT-4o, con un empate. Sin embargo, esta puntuación simple oculta la realidad matizada de que en muchos casos, determinar la respuesta ‘mejor’ fue una cuestión de juicio subjetivo. GPT-4o generalmente proporcionó respuestas más detalladas y personales, mientras que GPT-5 se inclinó por la franqueza y la concisión. El estilo preferido a menudo dependía de la naturaleza específica de la pregunta y la preferencia individual del usuario. En última instancia, esta comparación subraya la dificultad inherente para que cualquier modelo de lenguaje grande sea universalmente óptimo para cada usuario y cada consulta. Sugiere que los usuarios acostumbrados a los matices y patrones estilísticos de los modelos más antiguos pueden encontrar inevitablemente aspectos de las iteraciones más nuevas menos satisfactorios, independientemente de los avances generales.