OpenAI presenta GPT-5: IA Unificada con Razonamiento Adaptativo para Tareas Complejas

Decoder

OpenAI ha lanzado oficialmente GPT-5, introduciendo lo que describe como un sistema de IA unificado diseñado para el razonamiento adaptativo en tareas complejas. Basándose en los avances fundamentales de sus predecesores, esta nueva arquitectura consolida líneas de modelos anteriores, permitiendo que el sistema ajuste dinámicamente su “esfuerzo de pensamiento” computacional según la complejidad de cualquier consulta dada, una elección de diseño destinada a ofrecer respuestas más fiables y precisas.

El acceso a GPT-5 será escalonado, marcando un cambio significativo para los usuarios gratuitos quienes, por primera vez, podrán experimentar con un modelo específicamente diseñado para el razonamiento lógico. Los suscriptores de pago, por el contrario, se beneficiarán de límites de uso más altos y un conjunto de características exclusivas. El núcleo de GPT-5 no es un modelo monolítico singular, sino un sistema integrado. Aprovecha gpt-5-main, un modelo rápido y eficiente para la mayoría de las consultas rutinarias, mientras que un modelo de razonamiento más profundo, gpt-5-thinking, se invoca para problemas intrincados. Un sofisticado enrutador en tiempo real, continuamente refinado a través de la retroalimentación del usuario, selecciona inteligentemente el modelo apropiado basándose en factores como la dificultad de la pregunta, el contexto conversacional o incluso directivas explícitas del usuario como “piensa cuidadosamente sobre esto”. Para los suscriptores “Pro”, OpenAI ofrece GPT-5 Pro, una variante que dedica aún más tiempo de procesamiento al razonamiento de preguntas desafiantes, con evaluadores externos que, según se informa, la prefieren sobre gpt-5-thinking en casi el 68 por ciento de los escenarios difíciles.

OpenAI afirma que GPT-5 establece nuevos puntos de referencia en diversos dominios, incluyendo programación, atención médica y escritura. En codificación, el modelo es elogiado por su excepcional capacidad para construir interfaces front-end complejas y depurar bases de código extensas, logrando una puntuación del 74.9 por ciento en SWE-bench Verified y del 88 por ciento en Aider Polyglot, reduciendo significativamente las tasas de error en dos tercios en comparación con iteraciones anteriores. Para consultas relacionadas con la salud, GPT-5 tiene como objetivo proporcionar respuestas más precisas, funcionando como un “socio de pensamiento activo” capaz de hacer preguntas de seguimiento. Obtuvo un 46.2 por ciento en la exigente prueba HealthBench Hard, un aumento del 31.6 por ciento de su predecesor, aunque OpenAI enfatiza que no es un sustituto de los profesionales médicos. Se evidencian mayores ganancias de rendimiento en otros benchmarks, con GPT-5 obteniendo un 94.6 por ciento en AIME 2025 (matemáticas, sin herramientas) y un 84.2 por ciento en MMMU (comprensión multimodal). El premium GPT-5 Pro, según se informa, logró una puntuación del 88.4 por ciento en el benchmark GPQA para preguntas científicas de alta dificultad.

Una promesa clave de GPT-5 radica en su sustancial reducción de “alucinaciones”, la generación de información factualmente incorrecta o sin sentido. Con las capacidades de búsqueda web activadas, OpenAI afirma que el modelo es aproximadamente un 45 por ciento menos propenso a errores fácticos que GPT-4o. En su modo puro de “pensamiento”, la tasa de error cae en un impresionante 80 por ciento en comparación con su predecesor. En benchmarks abiertos basados en hechos como LongFact y FActScore, GPT-5 produjo aproximadamente seis veces menos alucinaciones. Incluso sin datos web actualizados, el modo de “pensamiento” de GPT-5 promedia tasas de alucinación entre 0.8 y 1.4 por ciento en LongFact-Concepts, LongFact-Objects y FActScore, una mejora dramática respecto al 24 al 38 por ciento visto en modelos anteriores, lo que se traduce en más de cinco veces menos errores fácticos. El modelo también está diseñado para una mayor transparencia con respecto a sus propias limitaciones. En una prueba que involucraba preguntas sobre imágenes inexistentes en el benchmark CharXiv, GPT-5 proporcionó respuestas seguras y inventadas solo el 9 por ciento de las veces, un fuerte contraste con el 86.7 por ciento de su predecesor. En general, la tasa de engaño en conversaciones representativas disminuyó del 4.8 por ciento al 2.1 por ciento con GPT-5.

GPT-5 introduce “Completaciones Seguras” (Safe Completions), un nuevo paradigma de seguridad detallado en un documento de investigación adjunto. Este sistema reemplaza el método anterior de “rechazo duro”, que OpenAI consideraba demasiado inflexible, particularmente para temas ambiguos o de doble uso donde la información podría aplicarse tanto para fines beneficiosos como dañinos. En lugar de bloquear directamente las solicitudes, GPT-5 prioriza hacer que la salida sea segura, en lugar de juzgar únicamente la intención del usuario. El modelo se esfuerza por proporcionar la respuesta más útil posible dentro de las pautas de seguridad predefinidas, lo que podría implicar ofrecer una visión general de alto nivel, una respuesta parcial o una perspectiva alternativa. Los evaluadores humanos, según se informa, encontraron este enfoque más seguro, más útil y mejor equilibrado. Consistentemente con esto, GPT-5-thinking ha sido calificado como de “alta capacidad” para biología y química bajo el Marco de Preparación de OpenAI, después de más de 5,000 horas de rigurosas pruebas de “red teaming” realizadas por socios como CAISI (EE. UU.) y UK AISI.

Más allá de sus capacidades centrales, GPT-5 trae varias características nuevas a su API, ofreciendo a los desarrolladores un control mejorado sobre el esfuerzo de razonamiento y la verbosidad del modelo. Las “Herramientas Personalizadas” (Custom Tools) ahora se pueden invocar utilizando texto plano en lugar de JSON estricto, lo que se espera que minimice los errores para entradas complejas. La ventana de contexto se ha expandido significativamente para acomodar 272,000 tokens de entrada y 128,000 tokens de salida. La API ahora ofrece tres tamaños de modelo distintos: gpt-5, gpt-5-mini y gpt-5-nano, con gpt-5 designado como la variante de “pensamiento” más potente, con un precio de $1.25 por millón de tokens de entrada y $10 por millón de tokens de salida.

La interfaz de usuario de ChatGPT también está recibiendo actualizaciones. El nuevo modelo está diseñado para ser considerablemente menos “sycophantic” (adulador), con este comportamiento, según se informa, cayendo del 14.5 por ciento a menos del 6 por ciento en las pruebas. Los usuarios obtendrán la capacidad de personalizar la apariencia visual de sus chats y, como una vista previa de investigación, seleccionar entre cuatro personalidades preestablecidas como “Cínico” o “Nerd”. El lanzamiento de GPT-5 comienza inmediatamente, convirtiéndose en el nuevo modelo predeterminado para clientes de Team, Enterprise y Education, mientras que los suscriptores Plus reciben límites de uso más altos y los usuarios Pro obtienen acceso ilimitado a GPT-5 y acceso exclusivo a GPT-5 Pro.