OpenAI GPT-5 Presentado: Modelo IA Experto, Capacidades y Primeras Reacciones
OpenAI ha presentado GPT-5, posicionando su último modelo de lenguaje grande como un sistema fundacional de “nivel experto” listo para redefinir la interacción de la IA con tareas complejas. Presentado como una arquitectura unificada que enruta inteligentemente las consultas a submodelos especializados según la complejidad, GPT-5 promete respuestas de “calibre de doctorado” para problemas exigentes, manteniendo baja latencia para solicitudes más simples. Esto marca un cambio significativo con respecto a modelos anteriores, donde los usuarios seleccionaban manualmente entre velocidad y profundidad, y el anuncio ha suscitado una mezcla de entusiasmo y escepticismo.
En el centro de los avances de GPT-5 se encuentran sólidas ganancias de rendimiento, particularmente en codificación y precisión fáctica. En el benchmark de ingeniería de software del mundo real SWE-bench Verified, GPT-5 logró un 74.9%, una mejora notable sobre el 69.1% de su predecesor o3, y obtuvo un 88% en Aider Polyglot para codificación en múltiples idiomas. Esto permite que el modelo genere aplicaciones full-stack completas a partir de prompts únicos, manejando todo, desde la instalación de dependencias hasta las vistas previas de la interfaz de usuario en vivo, y sobresaliendo en la generación de front-end complejos. Crucialmente, GPT-5 reduce drásticamente las alucinaciones. Cuando se integra con la búsqueda web, sus respuestas tienen aproximadamente un 45% menos de probabilidades de contener errores fácticos que GPT-4o, una cifra que salta a un 80% menos en su modo de razonamiento dedicado en comparación con OpenAI o3. Las pruebas prácticas lo destacan: en prompts abiertos de búsqueda de hechos, GPT-5 mostró seis veces menos alucinaciones, y cuando se enfrentó a imágenes faltantes, dio respuestas seguras e incorrectas solo el 9% de las veces, un marcado contraste con el 86.7% de o3.
Más allá del texto, GPT-5 amplía los límites multimodales, logrando un nuevo estado del arte del 84.2% en el benchmark MMMU para el razonamiento visual. Puede interpretar imágenes, gráficos y diagramas con alta precisión, generar o editar activos de front-end, crear animaciones SVG e incluso desarrollar juegos 3D sobre la marcha. La interfaz de voz de ChatGPT ahora cuenta con un sonido natural humano, interpreta las transmisiones de la cámara y ajusta dinámicamente su estilo de respuesta. Para los desarrolladores, la API introduce parámetros críticos como reasoning_effort
para intercambiar latencia por profundidad, y verbosity
para controlar la brevedad de la salida. Las herramientas personalizadas ahora admiten entrada de texto sin formato, omitiendo JSON, y la ventana de contexto se ha expandido a 400K tokens, el doble de la capacidad de GPT-4, lo que la hace efectiva para sintetizar documentos extensos.
GPT-5 ha sido específicamente entrenado como un compañero de equipo de IA colaborativo, exhibiendo autonomía, comunicación y gestión de contexto. Proporciona planes iniciales, ofrece actualizaciones de progreso, ejecuta pruebas automáticamente e incluso puede autodepurarse mediante la construcción iterativa. Su capacidad para mantener el contexto a través de cadenas prolongadas de llamadas a herramientas se evidencia con una puntuación del 70% en el benchmark de múltiples desafíos de Scale, lo que llevó a Cursor a adoptar GPT-5 como su predeterminado. Los primeros probadores empresariales ya han identificado casos de uso convincentes: Amgen lo aprovecha para un razonamiento profundo con datos científicos complejos, BBVA ha visto cómo las tareas de análisis financiero se reducen de semanas a horas, y Oscar Health lo utiliza para el razonamiento clínico, particularmente para mapear políticas médicas complejas. El Gobierno Federal de EE. UU. planea proporcionar acceso a dos millones de empleados.
OpenAI ha estructurado el precio de GPT-5 con modelos por niveles. El GPT-5 de fidelidad completa cuesta $1.25 por millón de tokens de entrada y $10.00 por millón de tokens de salida, sirviendo como predeterminado para ChatGPT y la API. Un GPT-5 Mini más económico está disponible, junto con el GPT-5 Nano altamente optimizado, diseñado para aplicaciones de borde y críticas en latencia, que es aproximadamente 25 veces más barato. El acceso es por niveles, con usuarios gratuitos comenzando en GPT-5 antes de pasar a Mini; los suscriptores Plus y Pro reciben límites de uso progresivamente más altos o ilimitados. Las cuentas de equipo, empresariales y EDU obtienen un acceso predeterminado generoso, y todas las organizaciones verificadas reciben acceso inmediato a la API.
En cuanto a la seguridad, GPT-5 introduce un enfoque de “completados seguros”, yendo más allá del rechazo total de solicitudes sensibles. Su objetivo es maximizar la utilidad dentro de los límites de seguridad, ofreciendo respuestas parciales o explicando limitaciones, particularmente para dominios de “doble uso”, reduciendo la información genérica inútil. A pesar de estos avances, las reacciones iniciales son mixtas. Si bien su codificación mejorada, la reducción de alucinaciones, los refinamientos de la API y el ahorro de tiempo reportado han recibido elogios, algunos observadores ven a GPT-5 como un “GPT-4.5” incremental en lugar de un salto revolucionario. Se han planteado preocupaciones sobre el “vibecharting” en las presentaciones de benchmarks, es decir, la exageración visual de pequeñas ganancias, como una mejora de solo el 0.4% en SWE-bench sobre el estado del arte. Errores técnicos en las demostraciones, como una explicación incorrecta del efecto Bernoulli, han alimentado el escepticismo sobre su inteligencia de “nivel de doctorado”. Además, persisten las preguntas sobre si GPT-5 es realmente un modelo unificado o una orquestación inteligente, lo que podría limitar sus ventajas para aplicaciones sensibles a la latencia.