OpenAI GPT-OSS: La IA de Peso Abierto que Redefine el Rendimiento

Clarifai

OpenAI ha presentado GPT-OSS-120b y GPT-OSS-20b, una nueva serie de modelos de razonamiento de peso abierto lanzados bajo la permisiva licencia Apache 2.0. Estos modelos solo de texto están diseñados para un robusto seguimiento de instrucciones, un uso sofisticado de herramientas y potentes capacidades de razonamiento, posicionándolos como candidatos principales para la integración en flujos de trabajo agénticos avanzados. Este lanzamiento subraya la dedicación continua de OpenAI para fomentar la innovación y la seguridad colaborativa dentro de la comunidad de IA en general.

Una pregunta crucial para desarrolladores e investigadores es cómo se comparan estos nuevos modelos con otros contendientes líderes en el ecosistema de modelos de peso abierto y semiabierto en rápida evolución. Para proporcionar claridad, una comparación detallada de GPT-OSS con modelos como GLM-4.5, Qwen3-Thinking, DeepSeek-R1 y Kimi K2 ofrece información valiosa sobre sus respectivas fortalezas y compensaciones.

Los modelos GPT-OSS se basan en las arquitecturas fundamentales de GPT-2 y GPT-3, incorporando notablemente un diseño de Mezcla de Expertos (MoE). Esta elección arquitectónica es fundamental para la eficiencia tanto durante el entrenamiento como durante la inferencia, ya que activa solo un subconjunto de parámetros por token. Esto permite que los modelos alcancen la escala de sistemas muy grandes mientras controlan meticulosamente los costos de cómputo. La familia comprende dos modelos: GPT-OSS-120b, con 116.8 mil millones de parámetros totales con aproximadamente 5.1 mil millones activos por token en 36 capas, y GPT-OSS-20b, que tiene 20.9 mil millones de parámetros totales con 3.6 mil millones activos por token en 24 capas. Ambos modelos comparten varios elementos arquitectónicos avanzados, incluyendo una dimensión de flujo residual de 2880, Atención de Consulta Agrupada con 64 cabezas de consulta y 8 cabezas de clave-valor, y incrustaciones de posición rotatorias para un razonamiento contextual mejorado. También cuentan con una longitud de contexto extendida de 131,072 tokens, aprovechando YaRN.

Para garantizar una implementación práctica, OpenAI ha aplicado la cuantificación MXFP4 a los pesos MoE. Esta técnica innovadora permite que el modelo de 120 mil millones de parámetros opere eficientemente en una sola GPU de 80 GB, mientras que su hermano de 20 mil millones de parámetros puede ejecutarse en hardware con tan solo 16 GB de memoria, ampliando significativamente la accesibilidad. Otra característica notable es el “esfuerzo de razonamiento variable”, que permite a los desarrolladores especificar niveles de razonamiento “bajo”, “medio” o “alto” a través del prompt del sistema. Esto ajusta dinámicamente la longitud de la Cadena de Pensamiento (CoT), ofreciendo flexibilidad para equilibrar la precisión, la latencia y el costo de cómputo. Además, los modelos están entrenados con soporte integrado para flujos de trabajo agénticos, incluyendo una herramienta de navegación para búsqueda web en tiempo real, una herramienta de Python para ejecución de código con estado en un entorno similar a Jupyter, y soporte para funciones personalizadas de desarrollador, facilitando el razonamiento complejo e intercalado y la interacción con el usuario.

El ecosistema de modelos abiertos es rico en contendientes formidables, cada uno con fortalezas distintas. Comparar GPT-OSS en varios benchmarks —razonamiento, codificación y flujos de trabajo agénticos— proporciona una comprensión más clara de su posición.

En tareas de conocimiento general y razonamiento, GPT-OSS demuestra algunas de las puntuaciones más altas en relación con su tamaño. En MMLU-Pro, GPT-OSS-120b logra un impresionante 90.0%, superando a GLM-4.5 (84.6%), Qwen3-Thinking (84.4%), DeepSeek-R1 (85.0%) y Kimi K2 (81.1%). Para tareas de matemáticas estilo competición, GPT-OSS realmente brilla, alcanzando el 96.6% en AIME 2024 y un aún más alto 97.9% en AIME 2025 con asistencia de herramientas, superando a todos los demás modelos comparados. En el benchmark científico de nivel PhD GPQA, GPT-OSS-120b puntúa 80.9% con herramientas, comparable a GLM-4.5 (79.1%) y Qwen3-Thinking (81.1%), y apenas por debajo de DeepSeek-R1 (81.0%). Estas cifras son particularmente significativas dado el eficiente diseño MoE de GPT-OSS-120b, donde solo 5.1 mil millones de parámetros están activos por token. En contraste, GLM-4.5 y Qwen3-Thinking son modelos densos considerablemente más grandes, lo que explica en parte su fuerte uso de herramientas y resultados de codificación. DeepSeek-R1 también tiende a tener un mayor número de parámetros y un uso más profundo de tokens para el razonamiento, mientras que Kimi K2 es un modelo más pequeño y especializado ajustado a instrucciones. Esta eficiencia significa que GPT-OSS ofrece razonamiento de nivel frontera con una huella de parámetros activos más ligera, lo que lo convierte en una opción rentable para tareas de razonamiento profundo.

En cuanto a la codificación y la ingeniería de software, los benchmarks modernos de IA evalúan la capacidad de un modelo para comprender grandes bases de código, implementar cambios y ejecutar razonamiento en múltiples pasos. En SWE-bench Verified, GPT-OSS-120b puntúa 62.4%, siguiendo de cerca a GLM-4.5 (64.2%) y DeepSeek-R1 (aproximadamente 65.8% en modo agéntico). En Terminal-Bench, GLM-4.5 lidera con 37.5%, seguido por Kimi K2 con alrededor del 30%. GLM-4.5 también exhibe un fuerte rendimiento en tareas de codificación agéntica uno a uno, logrando tasas de victoria superiores al 50% contra Kimi K2 y superiores al 80% contra Qwen3, mientras mantiene una alta tasa de éxito para flujos de trabajo de codificación basados en herramientas. De nuevo, el tamaño del modelo juega un papel aquí; GLM-4.5 es un modelo denso mucho más grande que GPT-OSS-120b y Kimi K2, lo que le otorga una ventaja en la codificación agéntica. Sin embargo, para los desarrolladores que buscan capacidades robustas de edición de código en un modelo que pueda ejecutarse en una sola GPU de 80 GB, GPT-OSS ofrece un equilibrio convincente.

Las capacidades agénticas —donde un modelo llama herramientas de forma autónoma, ejecuta funciones y resuelve tareas de varios pasos— son cada vez más vitales. En TAU-bench Retail, GPT-OSS-120b puntúa 67.8%, en comparación con el 79.7% de GLM-4.5 y el 70.6% de Kimi K2. Para BFCL-v3, un benchmark de llamada a funciones, GLM-4.5 lidera con 77.8%, seguido por Qwen3-Thinking con 71.9%, con GPT-OSS puntuando alrededor del 67-68%. Estos resultados resaltan una compensación común: GLM-4.5 sobresale en la llamada a funciones y los flujos de trabajo agénticos, pero lo hace como un modelo significativamente más grande y que consume más recursos. GPT-OSS, en contraste, ofrece resultados competitivos sin dejar de ser accesible para los desarrolladores que quizás no tengan acceso a clústeres multi-GPU.

En resumen, el panorama de los modelos de peso abierto presenta diversas fortalezas. GPT-OSS destaca por su capacidad para ofrecer razonamiento de nivel frontera y capacidades de Cadena de Pensamiento de formato largo con una huella de parámetros activos más pequeña que muchos modelos densos. GLM-4.5, un modelo denso de peso pesado, lidera en flujos de trabajo agénticos y llamada a funciones, pero exige sustancialmente más recursos de cómputo. DeepSeek-R1 y Qwen3 ofrecen un fuerte rendimiento de razonamiento híbrido a mayores escalas, mientras que Kimi K2 se enfoca en flujos de trabajo de codificación especializados con una configuración más compacta.

Esto convierte a GPT-OSS en una propuesta convincente, logrando un equilibrio impresionante entre rendimiento de razonamiento, capacidad de codificación y eficiencia de implementación. Es muy adecuado para la experimentación, la integración perfecta en sistemas agénticos y cargas de trabajo de producción conscientes de los recursos.