GPT-5: Opiniones Mixtas de Desarrolladores, Alta Rentabilidad
La reciente presentación de GPT-5 por parte de OpenAI vino acompañada de afirmaciones audaces: un “verdadero colaborador de codificación” diseñado para sobresalir en la generación de código de alta calidad y la realización de tareas de software automatizadas. El lanzamiento parecía desafiar directamente a Claude Code de Anthropic, una herramienta que se ha convertido rápidamente en la preferida por muchos desarrolladores que buscan asistencia de IA para la codificación. Sin embargo, las primeras reacciones de la comunidad de desarrolladores sugieren que el rendimiento de GPT-5 ha sido más matizado, presentando una mezcla de capacidades.
Si bien GPT-5 demuestra una gran aptitud para el razonamiento técnico y la planificación estratégica de tareas de codificación, varios desarrolladores sostienen que los últimos modelos Opus y Sonnet de Anthropic aún producen código superior. Un punto de contención recurrente es la verbosidad de GPT-5; dependiendo de su configuración, el modelo puede generar respuestas excesivamente elaboradas, lo que a veces lleva a líneas de código innecesarias o redundantes. Además, los propios métodos de evaluación de OpenAI para la destreza de codificación de GPT-5 han generado críticas, y algunos argumentan que los puntos de referencia son engañosos. Una empresa de investigación llegó incluso a calificar de “crimen gráfico” una imagen publicada por OpenAI, que promocionaba las capacidades de GPT-5.
A pesar de estas críticas, GPT-5 ofrece una ventaja convincente en un área crucial: la rentabilidad. Sayash Kapoor, estudiante de doctorado en informática e investigador de la Universidad de Princeton, coautor de AI Snake Oil, destaca esta distinción. En las pruebas de referencia de su equipo, ejecutar una evaluación estándar que mide la capacidad de un modelo de lenguaje para reproducir los resultados de 45 artículos científicos cuesta solo $30 con GPT-5 (configurado con verbosidad media), en comparación con los considerables $400 para la misma prueba utilizando Opus 4.1 de Anthropic. El equipo de Kapoor ya ha invertido aproximadamente $20,000 en la prueba de GPT-5, lo que subraya la significativa disparidad de costos.
Sin embargo, esta asequibilidad conlleva una compensación en la precisión. Las pruebas de Kapoor indican que, si bien es más económico, GPT-5 es menos preciso que algunos de sus rivales. El modelo premium de Claude logró una tasa de precisión del 51 por ciento en la reproducción de artículos científicos, mientras que la versión media de GPT-5 solo logró el 27 por ciento. Cabe señalar que esta es una comparación indirecta, ya que Opus 4.1 representa la oferta más potente de Anthropic, y el equipo de Kapoor aún no ha realizado la misma prueba con la configuración de alta verbosidad de GPT-5.
OpenAI, a través de la portavoz Lindsay McCallum, dirigió las consultas a su blog, que afirma que GPT-5 fue entrenado en “tareas de codificación del mundo real en colaboración con probadores tempranos en startups y empresas”. La compañía también mostró mediciones internas de precisión para GPT-5, revelando que su modelo “pensante”, diseñado para un razonamiento más deliberado, logró la mayor precisión entre los modelos de OpenAI. Sin embargo, el modelo “principal” de GPT-5 aún estaba por detrás de los modelos lanzados anteriormente en la escala de precisión interna de OpenAI. La portavoz de Anthropic, Amie Rotherham, respondió enfatizando que “las afirmaciones de rendimiento y los modelos de precios a menudo se ven diferentes una vez que los desarrolladores comienzan a usarlos en entornos de producción”, sugiriendo que para los modelos de razonamiento, “el precio por resultado importa más que el precio por token”.
En medio de las críticas mixtas, algunos desarrolladores reportan experiencias en gran medida positivas con GPT-5. Jenny Wang, ingeniera, inversora y creadora del agente de estilo personal Alta, encontró que GPT-5 era hábil para completar tareas de codificación complejas en un solo intento, superando a los modelos más antiguos de OpenAI que usa con frecuencia para la generación de código y correcciones sencillas. Por ejemplo, GPT-5 generó código para una página de prensa de la empresa con elementos de diseño específicos de una sola vez, una tarea que anteriormente requería indicaciones iterativas, aunque Wang señaló que “alucinó las URL”. Otro desarrollador, que prefiere el anonimato, elogió la capacidad de GPT-5 para resolver problemas técnicos profundos, citando sus impresionantes recomendaciones y plazos realistas para un complejo proyecto de herramienta de análisis de red. Varios socios empresariales de OpenAI, incluidos Cursor, Windsurf y Notion, han respaldado públicamente las habilidades de codificación y razonamiento de GPT-5, y Notion afirma que maneja trabajos complejos un 15 por ciento mejor que otros modelos probados.
Por el contrario, algunos desarrolladores expresaron su decepción inmediata en línea. Kieran Klassen, quien está construyendo un asistente de correo electrónico con IA, comentó que las habilidades de codificación de GPT-5 parecían “rezagadas”, más parecidas a Sonnet 3.5 de Anthropic, lanzado un año antes. Amir Salihefendić, fundador de Doist, encontró a GPT-5 “bastante decepcionante” y “especialmente malo para la codificación”, haciendo una comparación con el decepcionante lanzamiento de Llama 4 de Meta. El desarrollador Mckay Wrigley elogió a GPT-5 como un “modelo de chat diario fenomenal”, pero confirmó que se apegaría a Claude Code y Opus para las tareas de codificación. La naturaleza “exhaustiva” del modelo, aunque a veces útil, también fue descrita como exasperantemente prolija, y Wang señaló su tendencia a soluciones “más redundantes”.
Itamar Friedman, cofundador y CEO de la plataforma de codificación de IA Qodo, sugiere que algunas de las críticas provienen de expectativas cambiantes. Distingue entre la “Era Antes de ChatGPT” (BCE), cuando los modelos de IA mejoraban holísticamente, y el panorama actual posterior a ChatGPT, donde los avances a menudo son especializados. Citó el dominio de Claude Sonnet 3.5 en codificación y la fortaleza de Google Gemini en la revisión de código como ejemplos.
OpenAI también ha sido objeto de escrutinio por su metodología de pruebas de referencia. SemiAnalysis, una firma de investigación, señaló que OpenAI realizó solo 477 de las 500 pruebas típicamente incluidas en SWE-bench, un marco estándar de la industria de IA para evaluar grandes modelos de lenguaje. OpenAI aclaró que utiliza consistentemente un subconjunto fijo de 477 tareas porque estas están validadas en su infraestructura interna, agregando que las variaciones en la configuración de verbosidad del modelo pueden influir en el rendimiento de la evaluación.
En última instancia, las empresas de IA de vanguardia lidian con complejas compensaciones, como observa Sayash Kapoor. Los desarrolladores que entrenan nuevos modelos deben equilibrar las expectativas de los usuarios, el rendimiento en diversas tareas como la codificación agéntica y el costo. Kapoor especula que OpenAI, consciente de que podría no dominar todos los puntos de referencia, probablemente buscó crear un modelo que atrajera ampliamente a una amplia gama de usuarios, priorizando una convincente relación costo-rendimiento.