El lanzamiento de GPT-5 de OpenAI: ¿Un tropiezo inesperado?

Venturebeat

El esperado lanzamiento del modelo GPT-5 de OpenAI ha encontrado una recepción desafiante, marcada por una serie de errores reportados por usuarios y una insatisfacción generalizada. Tras su presentación en vivo, que incluyó fallos en gráficos y demostraciones de voz, los usuarios rápidamente comenzaron a señalar casos en los que GPT-5 flaqueaba en tareas que modelos anteriores de OpenAI, e incluso sistemas de IA rivales, manejaban correctamente.

Ejemplos notables de estos errores incluyen la incapacidad de GPT-5 para resolver correctamente problemas matemáticos básicos. El científico de datos Colin Fraser compartió capturas de pantalla que ilustran la incapacidad del modelo para probar si el decimal periódico 8.888 es igual a 9 (lo cual no lo es). También tropezó con una ecuación algebraica sencilla, 5.9 = x + 5.11, un problema que los estudiantes de primaria suelen resolver. Además, los intentos de usar GPT-5 para evaluar los propios gráficos de presentación erróneos de OpenAI arrojaron respuestas inútiles e incorrectas. El modelo incluso tuvo dificultades con un problema matemático más complejo que, aunque inicialmente complicado para los humanos, fue resuelto con precisión por la IA Groq 4 de Elon Musk.

Más allá del razonamiento matemático, la destreza de codificación de GPT-5, a pesar de los sólidos benchmarks internos y de terceros, parece quedarse corta en la aplicación en el mundo real. Aunque los benchmarks sugerían superioridad, los desarrolladores informan que el recientemente actualizado Claude Opus 4.1 de Anthropic a menudo rinde mejor en tareas de “un solo intento” (completar la aplicación o construcción de software deseada por el usuario en un solo intento). Esta disparidad destaca una brecha entre las métricas de rendimiento teóricas y la utilidad práctica.

Para agravar la frustración de los usuarios, OpenAI está deprecando gradualmente sus modelos más antiguos y bien valorados, incluyendo GPT-4o y el potente modelo de razonamiento o3, para los usuarios de ChatGPT. Si bien estos seguirán siendo accesibles a través de la interfaz de programación de aplicaciones (API) para desarrolladores, su eliminación de la interfaz de usuario principal ha sido recibida con consternación. Sumado a las preocupaciones, un informe de la firma de seguridad SPLX indicó que las capas de seguridad internas de OpenAI exhiben vulnerabilidades significativas, particularmente en áreas como la alineación empresarial y la susceptibilidad a la inyección de prompts y ataques de lógica ofuscada.

Los primeros comentarios de la comunidad de IA pintan un panorama de una recepción tibia. Una encuesta realizada por el influencer de IA Bilawal Sidhu, que pedía una “verificación de ambiente” sobre GPT-5, mostró que una abrumadora mayoría lo describía como “algo regular”. Este sentimiento se hizo eco en las plataformas de redes sociales, con la cuenta pseudónima AI Leaks and News señalando un consenso “abrumadoramente negativo” tanto en X (anteriormente Twitter) como en Reddit. Una fuente principal de descontento de los usuarios proviene de la nueva función de “router” de GPT-5, diseñada para seleccionar automáticamente un modo de “pensamiento” o “no pensamiento” según la dificultad de la consulta. Los usuarios informan que este router a menudo se establece por defecto en el modo de no pensamiento menos capaz, lo que dificulta el rendimiento para consultas complejas.

Esta tibia recepción plantea un desafío significativo para OpenAI, especialmente a medida que la competencia se intensifica. Rivales importantes como Google y Anthropic están avanzando rápidamente en sus propios modelos de lenguaje grandes. Además, está surgiendo una creciente variedad de LLM chinos potentes, a menudo gratuitos y de código abierto, que ofrecen características competitivas. Por ejemplo, el modelo Qwen 3 de Alibaba actualizó recientemente su ventana de contexto a 1 millón de tokens, lo que permite casi cuatro veces más intercambio de información en una sola interacción en comparación con GPT-5. El otro lanzamiento reciente de OpenAI, los modelos de código abierto GPT-OSS, también recibió una respuesta mixta. Este contexto más amplio, junto con una predicción reciente del mercado de apuestas Polymarket que favorece a Google para tener el mejor modelo de IA para finales de agosto de 2025, sugiere un panorama cambiante.

A pesar de los contratiempos iniciales, algunos expertos de la industria, como el cofundador y CEO de Otherside AI, Matt Schumer, sugieren que las opiniones negativas pueden evolucionar a medida que los usuarios y desarrolladores optimicen sus enfoques de integración para el nuevo modelo. Schumer postula que normalmente existe un desfase temporal entre el lanzamiento de un nuevo modelo y el momento en que las empresas adaptan completamente sus sistemas para aprovechar sus capacidades. Sin embargo, estas primeras indicaciones sugieren que GPT-5 no es el “éxito rotundo” que fueron iteraciones anteriores como GPT-4 o 4o. Esta es una señal preocupante para OpenAI, una empresa que, a pesar de haber asegurado recientemente otra ronda de financiación, sigue siendo no rentable debido a sus extensos costos de investigación y desarrollo.