Guía GPT-5 de OpenAI: Flujos de Agente y Potencia de Codificación

Decoder

OpenAI ha presentado una extensa guía de prompting para su último modelo de lenguaje grande, GPT-5, ofreciendo información detallada sobre cómo aprovechar sus capacidades para flujos de trabajo de agente y aplicaciones de codificación avanzadas. Esta guía, que incorpora lecciones aprendidas de la integración del editor de código Cursor, destaca el entrenamiento fundamental de GPT-5 para el uso sofisticado de herramientas, el seguimiento preciso de instrucciones y la comprensión de contextos extremadamente largos, lo que lo convierte en un candidato ideal para construir agentes de IA autónomos.

Para aplicaciones agénticas —donde los modelos de IA toman la iniciativa y realizan tareas de varios pasos— OpenAI recomienda la nueva API Responses. Esta API está diseñada para preservar los procesos de razonamiento internos del modelo entre llamadas sucesivas a herramientas, mejorando significativamente tanto la eficiencia como la calidad de la salida. Los datos de OpenAI indican una mejora notable: simplemente al cambiar de las Completions de Chat tradicionales a la API Responses y pasar el razonamiento previo usando el parámetro “previous_response_id”, se aumentaron las puntuaciones de referencia de Tau en el trading del 73.9% al 78.2%. Mantener este contexto de razonamiento no solo conserva los tokens de procesamiento, sino que también asegura que los planes se sigan consistentemente a través de múltiples interacciones con herramientas, lo que lleva a un mejor rendimiento y una latencia reducida.

El grado de “iniciativa agéntica” de GPT-5 —su propensión a tomar la iniciativa— puede ajustarse finamente mediante la ingeniería de prompts y un nuevo parámetro “reasoning_effort”. Reducir este parámetro disminuye la autonomía del modelo, mientras que establecer criterios claros para las búsquedas de contexto y limitar el número de llamadas a herramientas (por ejemplo, a dos) proporciona un mayor control, incluyendo opciones para que el modelo continúe incluso cuando persiste cierta incertidumbre. Por el contrario, para fomentar una mayor iniciativa, la guía sugiere aumentar el esfuerzo de razonamiento y añadir instrucciones explícitas de persistencia para minimizar preguntas aclaratorias innecesarias. También aconseja establecer condiciones de parada claras, distinguir entre acciones seguras y riesgosas, y definir umbrales para cuándo las tareas deben ser devueltas a un usuario humano. Por ejemplo, se recomienda un umbral más bajo para la intervención del usuario en escenarios sensibles como flujos de compra o pago en comparación con una simple búsqueda, y la eliminación de archivos en tareas de programación debería requerir mucha más precaución que las búsquedas de texto básicas. Para tareas más largas y multifase, GPT-5 está entrenado para esbozar su plan al principio y luego proporcionar actualizaciones concisas del progreso. La frecuencia, el estilo y el contenido de estas actualizaciones son totalmente personalizables a través del prompt, desde una simple paráfrasis del objetivo hasta planes estructurados, mensajes de estado secuenciales e informes finales completos. OpenAI recomienda además desglosar tareas altamente complejas en subtareas más pequeñas y manejables a lo largo de múltiples rondas de agente.

OpenAI posiciona a GPT-5 como un asistente robusto para el desarrollo de software, capaz de manejar grandes bases de código, depurar, procesar cambios importantes de código, realizar refactorizaciones de múltiples archivos, implementar nuevas características significativas e incluso generar aplicaciones completas desde cero. Para el desarrollo de nuevas aplicaciones web, OpenAI sugiere una pila tecnológica específica que incluye Next.js (TypeScript), React, HTML, Tailwind CSS, shadcn/ui, Radix Themes, conjuntos de iconos populares, la biblioteca de animación Motion y varias fuentes modernas. Para nuevos proyectos “greenfield” (desde cero), la guía propone un patrón de prompt donde el modelo primero establece un conjunto interno de criterios de calidad (típicamente de cinco a siete categorías) y luego refina iterativamente su salida hasta que todos los criterios se cumplen por completo. Al realizar cambios incrementales o refactorizar código existente, las modificaciones de GPT-5 están diseñadas para integrarse sin problemas. La guía enfatiza la importancia de reflejar explícitamente la configuración técnica existente de la base de código, incluyendo sus principios rectores, estructura de directorios y reglas de UI/UX. OpenAI proporciona principios de ejemplo como claridad, reutilización, consistencia, simplicidad y calidad visual, junto con estándares de pila y pautas de UI/UX que cubren tipografía, colores, espaciado, indicadores de estado y accesibilidad.

Las pruebas iniciales con el editor de código Cursor proporcionaron valiosas percepciones del mundo real sobre el comportamiento de GPT-5. Cursor buscaba lograr un equilibrio entre la autonomía del modelo y la concisión de sus mensajes de estado durante tareas más largas. Inicialmente, GPT-5 generaba actualizaciones de estado excesivamente detalladas mientras producía código demasiado conciso dentro de las llamadas a herramientas, a veces usando nombres de variables de una sola letra. Cursor abordó esto configurando el parámetro global de la API “verbosity” a bajo, mientras que al mismo tiempo se le indicaba al modelo que fuera más detallado específicamente dentro de las herramientas de código, instruyéndolo a “Escribir código para la claridad primero… Usar alta verbosidad para escribir código y herramientas de código.” Este enfoque resultó en mensajes de estado y resumen compactos, al tiempo que aseguraba cambios de código altamente legibles. El equipo de Cursor también observó que GPT-5 a veces hacía preguntas de seguimiento innecesarias. Proporcionar un contexto más preciso sobre las funciones de deshacer/rechazar y las preferencias del usuario ayudó a reducir estas interrupciones, llevando al modelo a aplicar cambios de forma proactiva y enviarlos para revisión en lugar de buscar aprobación previa. Otra percepción clave fue que los prompts efectivos con modelos anteriores a veces activaban un número excesivo de llamadas a herramientas en GPT-5. Al reducir estas instrucciones de “excesiva minuciosidad”, GPT-5 se volvió más hábil para discernir cuándo aprovechar su conocimiento interno y cuándo utilizar herramientas externas. El uso de especificaciones estructuradas, similares a XML, mejoró aún más el seguimiento de instrucciones, y las reglas configurables por el usuario de Cursor proporcionaron capas adicionales de control.

Más allá de “reasoning_effort”, GPT-5 introduce un nuevo parámetro de API “verbosity”, que controla la longitud de la respuesta final de forma independiente. Si bien se puede establecer un valor de verbosidad global, también se puede anular según sea necesario, lo que permite mensajes de estado concisos junto con salidas de código detalladas, como se demostró en la integración de Cursor. GPT-5 también admite un modo de “razonamiento mínimo”, diseñado para la máxima velocidad mientras conserva los beneficios de su paradigma de razonamiento subyacente. OpenAI recomienda prompts para este modo que comiencen con una breve justificación, incluyan actualizaciones de estado claras antes de las llamadas a herramientas, proporcionen instrucciones explícitas y persistentes para las herramientas, y animen al agente a completar las tareas por completo antes de devolverlas. Para los usuarios que migran de GPT-4.1, OpenAI señala los patrones descritos en su guía anterior. Sin embargo, OpenAI advierte que GPT-5 es extremadamente literal en el seguimiento de instrucciones, y los prompts vagos o contradictorios pueden interrumpir sus procesos de razonamiento. Para ayudar a los usuarios a evitar estos escollos, OpenAI proporciona acceso a su Optimizador de Prompts, una herramienta diseñada para señalar inconsistencias e instrucciones poco claras.