¡Sorpresa! El o3 de OpenAI supera a GPT-5 en tareas complejas de oficina

Decoder

Un nuevo benchmark diseñado para impulsar los límites de la inteligencia artificial en entornos de oficina reales ha arrojado resultados sorprendentes: el modelo o3 establecido de OpenAI superó consistentemente a su contraparte más nueva, GPT-5, en tareas complejas y multiaplicación. Este hallazgo, basado en el recientemente introducido OdysseyBench, sugiere que el progreso en las capacidades de los agentes de IA para flujos de trabajo intrincados y de larga duración podría estar evolucionando de maneras inesperadas.

Desarrollado por investigadores de Microsoft y la Universidad de Edimburgo, OdysseyBench tiene como objetivo ir más allá de las “tareas atómicas” aisladas (comandos simples de un solo paso) para evaluar cómo los modelos de IA manejan escenarios que se desarrollan durante varios días, imitando el trabajo de oficina genuino. El benchmark abarca 602 tareas, que abarcan aplicaciones populares como Word, Excel, PDF, correo electrónico y herramientas de calendario. Estas tareas se dividen en dos categorías principales: 300 escenarios realistas derivados de OfficeBench, denominados OdysseyBench+, y 302 situaciones excepcionalmente desafiantes de nueva construcción, conocidas como OdysseyBench-Neo. Ambas secciones exigen que los modelos extraigan información de conversaciones de varios días, formulen planes de varios pasos y sincronicen acciones en varias herramientas de oficina.

El desafío principal para estos agentes de IA radica en resolver tareas de oficina a largo plazo y basadas en el diálogo. Tanto en OdysseyBench+ como en OdysseyBench-Neo, el modelo o3 de OpenAI emergió consistentemente como el líder sobre GPT-5. En OdysseyBench-Neo, que presenta las tareas más exigentes y elaboradas a mano, o3 logró una tasa de éxito del 61.26%, superando significativamente el 55.96% de GPT-5 y el 57.62% de GPT-5-chat. La brecha de rendimiento se amplió aún más en tareas que requieren el uso simultáneo de tres aplicaciones, donde o3 obtuvo un 59.06% en comparación con el 53.80% de GPT-5.

Los resultados en OdysseyBench+ reflejaron esta tendencia. Aquí, o3 obtuvo un 56.2%, superando a GPT-5 con un 54.0% y a GPT-5-chat con un 40.3%. La disparidad se hizo aún más pronunciada en tareas que implican la coordinación de dos o tres aplicaciones, donde la comprensión contextual y la planificación meticulosa son primordiales. Curiosamente, GPT-5-chat superó inesperadamente a GPT-5 en OdysseyBench-Neo. Los investigadores atribuyen esto al enfoque de las tareas Neo en la asistencia basada en el diálogo, lo que se alinea con las fortalezas conversacionales de GPT-5-chat. Por el contrario, OdysseyBench+ incluye escenarios más fragmentados y menos conversacionales, donde el GPT-5 centrado en el razonamiento demostró una mejor capacidad para extraer información relevante de entradas inconexas. Cabe señalar que el estudio no especificó la configuración de razonamiento para GPT-5, como su “tiempo de pensamiento” o parámetros específicos del agente, ni se incluyó un modelo GPT-5 Pro más avanzado en la evaluación.

Estos hallazgos tienen implicaciones significativas, especialmente porque OpenAI persigue activamente el desarrollo de agentes de IA capaces de “pensar” durante horas o incluso días, con el objetivo final de generar ideas novedosas y automatizar la investigación en campos como la medicina y la seguridad de la IA. OdysseyBench podría resultar ser un benchmark crucial para estos sistemas nacientes de largo horizonte. Simultáneamente, los resultados resaltan sutilmente una posible desaceleración en el ritmo del progreso: si bien tanto o3 como GPT-5 representan claros avances sobre modelos anteriores, no hay un salto discernible en la capacidad de o3 a GPT-5, particularmente dado que o3 solo se lanzó oficialmente en abril.

Un examen más detallado de los resultados del benchmark revela varios desafíos persistentes para los agentes de IA actuales en flujos de trabajo complejos. Los modelos con frecuencia pasan por alto archivos críticos, omiten pasos necesarios o intentan usar las herramientas incorrectas para una tarea determinada. Por ejemplo, algunos agentes intentaron generar archivos PDF antes de crear el texto original en Word, o no lograron extraer contenido de los PDF antes de redactar un documento de revisión. Las tareas que implican la creación o edición de archivos DOCX y XLSX resultaron particularmente propensas a errores, exigiendo una coordinación precisa y de varios pasos, un área donde los agentes lucharon constantemente. Los investigadores concluyen que estos problemas apuntan a un desafío más amplio y fundamental: los agentes de IA de hoy en día todavía luchan con la planificación precisa y de varias etapas necesaria para navegar tareas que abarcan diferentes herramientas, plazos y contextos. Para aquellos interesados en una exploración adicional, el marco OdysseyBench y HOMERAGENTS están disponibles públicamente en GitHub.