GPT-5: La Edad de Piedra de las Herramientas IA y el Salto AGI

Latent

El tan esperado GPT-5 de OpenAI ha llegado finalmente, tras casi dos años de especulación en la industria. Como socios de acceso anticipado, hemos tenido la oportunidad de probar exhaustivamente este nuevo modelo en una variedad de aplicaciones, desde nuestra propia plataforma, Raindrop.ai, hasta entornos de desarrollo como Cursor y Codex. ¿Nuestra impresión general? GPT-5 representa un profundo salto hacia la Inteligencia Artificial General (AGI), particularmente en el ámbito de la ingeniería de software, donde demuestra una capacidad excepcional para abordar aplicaciones complejas y resolver problemas intrincados dentro de vastas bases de código, a menudo en un solo intento.

Sin embargo, la narrativa no es tan sencilla como simplemente ser “mejor” en todos los ámbitos. Sorprendentemente, GPT-5 rinde menos que sus predecesores, GPT-4.5 e incluso GPT-4o, cuando se trata de escribir. En muchas tareas comunes, no impresionará inmediatamente a los usuarios como un supergenio. Estas aparentes fallas, paradójicamente, iluminan un cambio fundamental en el camino hacia la AGI. Para entender esto, debemos mirar hacia atrás a la Edad de Piedra.

¿Qué define el amanecer de la inteligencia humana? No fue ganar una partida de ajedrez o probar un teorema complejo. La Edad de Piedra está claramente marcada por un desarrollo crucial: los humanos aprendieron a usar herramientas. Moldeamos herramientas y, a su vez, nuestras herramientas nos moldearon a nosotros, alterando fundamentalmente nuestras capacidades cognitivas. La inteligencia humana, en su esencia, se manifiesta y se extiende a través de las herramientas. GPT-5 marca el comienzo de una nueva Edad de Piedra para los agentes de IA y los grandes modelos de lenguaje. Este modelo no solo usa herramientas; piensa con ellas y construye con ellas.

Considere la función “Deep Research” de OpenAI, una evolución significativa de la búsqueda web básica. Si bien las versiones anteriores de ChatGPT podían buscar en la web, a Deep Research se le enseñó a realizar investigaciones: planificar, iterar y explorar. La búsqueda en la web se convirtió en una parte intrínseca de su proceso de pensamiento. GPT-5 extiende esta filosofía a prácticamente cualquier herramienta a la que pueda acceder, siempre que esas herramientas estén diseñadas para ser potentes, capaces y de propósito abierto, aceptando a menudo descripciones en lenguaje natural como entrada. Las herramientas efectivas para GPT-5 generalmente se dividen en cuatro categorías: recuperación interna (como sistemas RAG o consultas SQL), búsqueda web, intérpretes de código y acciones que producen efectos secundarios (como editar archivos o activar elementos de la interfaz de usuario). Un excelente ejemplo de una herramienta potente es la búsqueda web misma, donde GPT-5 decide qué buscar, y la herramienta maneja el cómo.

Otro avance significativo es la competencia de GPT-5 en la llamada de herramientas en paralelo. Si bien los modelos anteriores poseían técnicamente esta capacidad, rara vez la ejecutaban correcta o consistentemente. GPT-5, sin embargo, demuestra la inteligencia para discernir qué herramientas pueden y deben ejecutarse simultáneamente versus secuencialmente para una tarea dada. Esta paralelización reduce drásticamente la latencia y extiende los horizontes operativos del modelo, permitiendo posibilidades de productos completamente nuevas.

Interactuar con GPT-5 requiere un cambio de perspectiva. En lugar de solicitar un “modelo”, los usuarios deben pensar en sí mismos como solicitando un “agente”. En lugar de precargar un contexto extenso, el agente necesita una “brújula”: una guía clara y estructurada para navegar por su entorno. Por ejemplo, al trabajar con GPT-5 en una gran base de código, es crucial especificar el propósito del proyecto, los archivos relevantes, la estructura organizacional y los criterios claros para la finalización de la tarea. Si el modelo se atasca, un simple “No, eso está mal” es menos efectivo que preguntar, “¿Qué aprendimos al intentar eso?”. Este enfoque se asemeja a la enseñanza, ya que GPT-5, sin memoria intrínseca, necesita ser incorporado a los estándares de código y recibir pistas para comenzar cada tarea.

Nuestras observaciones confirman que GPT-5 es un modelo altamente práctico y orientado a la industria, distinto de la inclinación más “académica” de algunos predecesores. Es notablemente instruible y literal, ejecutando directamente las solicitudes en lugar de exhibir la “personalidad” distintiva vista en modelos como Claude.

La destreza de codificación de GPT-5 es su punto culminante innegable. En una prueba particularmente desafiante que involucraba conflictos de dependencia anidados al integrar nuevos SDK, GPT-5 resolvió el problema en un solo intento, una hazaña que eludió a Claude Opus y otros modelos avanzados. GPT-5 abordó esto como un investigador experimentado, examinando carpetas, ejecutando comandos de diagnóstico, tomando notas y haciendo pausas para razonar cuando surgían inconsistencias, editando finalmente las líneas necesarias en múltiples directorios con precisión. Esta depuración iterativa y basada en el razonamiento contrastó fuertemente con los enfoques de prueba y error de otros modelos. Otras demostraciones de sus capacidades de codificación incluyeron la generación de un sitio web completo con temática de Mac OS 9 utilizando HTML, CSS y JavaScript puros, completo con una aplicación de pintura funcional y almacenamiento de datos persistente, todo creado a partir de una sola solicitud y sorprendentemente robusto. Para aplicaciones listas para producción, GPT-5 también se destacó, generando una consulta compleja de Clickhouse y un sitio web de pila completa con una base de datos SQLite en una sola solicitud, una tarea donde otros modelos a menudo proporcionaban solo planes o andamiajes incompletos.

El uso mejorado de herramientas, el procesamiento paralelo y la eficiencia de costos de GPT-5 lo hacen excepcionalmente adecuado para desarrollar agentes de IA de larga duración. Nuestra empresa, una firma de monitoreo de IA, ha buscado durante mucho tiempo integrar un agente confiable en nuestro producto. Las capacidades de GPT-5, incluida su mejor recuperación de fallas en la llamada de herramientas y su capacidad para discernir cuándo generar gráficos versus tablas, finalmente han hecho de esto una realidad práctica, permitiendo un lanzamiento beta a los clientes.

Sin embargo, GPT-5 no es un escritor fuerte. De hecho, GPT-4.5 y DeepSeek R1 lo superan significativamente. Para la escritura profesional, como refinar publicaciones de LinkedIn, GPT-4.5 se adhiere más al tono del usuario, proporcionando texto utilizable, mientras que GPT-5 tiende a un estilo genérico y “LinkedIn-slop”. De manera similar, para la escritura personal menos estructurada, GPT-4.5 mantiene un tono más auténtico, sonando menos como la salida típica de un LLM.

En conclusión, nuestra experiencia práctica se alinea con los puntos de referencia oficiales de OpenAI: GPT-5 es inequívocamente el modelo de codificación líder en el mundo. Ha avanzado la automatización de la ingeniería de software de un estimado 65% de finalización a aproximadamente el 72%, marcando el salto más significativo desde GPT-3.5 Sonnet. Si bien los desarrolladores comprenderán inmediatamente su profundo impacto, los usuarios generales pueden no apreciar completamente sus capacidades hasta que se integre sin problemas en los productos cotidianos en los próximos meses.