OpenAI Lanza Modelos IA de Código Abierto: Un Giro Estratégico

Techcrunch

OpenAI ha lanzado dos nuevos modelos de razonamiento de IA de “peso abierto”, poniéndolos a disposición gratuita para su descarga en la plataforma de desarrollo Hugging Face. La compañía describe estos modelos como “de última generación” cuando se evalúan frente a varios puntos de referencia para modelos abiertos comparables.

El lanzamiento incluye dos tamaños distintos: el más robusto gpt-oss-120b, diseñado para operar en una sola GPU Nvidia, y el más ligero gpt-oss-20b, que puede ejecutarse en un portátil de consumo equipado con 16 GB de memoria. Esto marca el primer modelo de lenguaje “abierto” lanzado públicamente por OpenAI desde GPT-2, que debutó hace más de cinco años.

OpenAI indicó que estos nuevos modelos abiertos son capaces de enviar consultas complejas a los modelos de IA más potentes de la compañía alojados en la nube. Este enfoque híbrido significa que si un modelo abierto no puede realizar una tarea específica, como procesar una imagen, los desarrolladores pueden conectarlo a uno de los modelos de código cerrado más capaces de OpenAI.

Si bien OpenAI inicialmente adoptó el código abierto en sus primeros días, la compañía ha seguido predominantemente una estrategia de desarrollo propietaria y de código cerrado. Este enfoque ha sido fundamental para construir un negocio sustancial mediante la venta de acceso a la API de sus modelos de IA para empresas y desarrolladores. Sin embargo, el CEO Sam Altman expresó en enero su creencia de que OpenAI había estado “en el lado equivocado de la historia” con respecto a la apertura de sus tecnologías.

La compañía ahora enfrenta una creciente competencia de los laboratorios de IA chinos, incluidos DeepSeek, Qwen de Alibaba y Moonshot AI, que han desarrollado varios de los modelos abiertos más capaces y ampliamente adoptados del mundo. Este cambio se produce cuando los modelos de IA Llama de Meta, que alguna vez fueron dominantes en el espacio de la IA abierta, supuestamente se han quedado atrás en el último año. Además, la Administración Trump instó a los desarrolladores de IA de EE. UU. en julio a abrir más tecnología para fomentar la adopción global de la IA alineada con los valores estadounidenses.

Con la introducción de gpt-oss, OpenAI busca obtener el apoyo tanto de los desarrolladores como de la Administración Trump, quienes han observado la creciente prominencia de los laboratorios de IA chinos en el dominio de código abierto. Sam Altman declaró: “La misión de OpenAI es garantizar que la AGI beneficie a toda la humanidad. Para ello, estamos entusiasmados de que el mundo construya sobre una pila de IA abierta creada en los Estados Unidos, basada en valores democráticos, disponible de forma gratuita para todos y para un amplio beneficio.”

Rendimiento del Modelo y Alucinación

OpenAI buscó posicionar sus nuevos modelos abiertos como líderes entre otros modelos de IA de peso abierto, afirmando el éxito en este esfuerzo.

En Codeforces, una prueba de codificación competitiva que utiliza herramientas, gpt-oss-120b logró una puntuación de 2622, mientras que gpt-oss-20b obtuvo 2516. Ambos modelos superaron a R1 de DeepSeek pero quedaron por detrás de los modelos o3 y o4-mini de OpenAI.

De manera similar, en Humanity’s Last Exam, una prueba desafiante de preguntas colaborativas en varias materias (también con herramientas), gpt-oss-120b obtuvo un 19% y gpt-oss-20b un 17.3%. Estos resultados indican un rendimiento inferior en comparación con o3, pero un rendimiento superior a los modelos abiertos líderes de DeepSeek y Qwen.

En particular, los nuevos modelos abiertos de OpenAI exhiben tasas significativamente más altas de “alucinación” –generación de información incorrecta o sin sentido– en comparación con sus últimos modelos de razonamiento de IA propietarios, o3 y o4-mini. OpenAI atribuye esto a que los modelos más pequeños poseen menos “conocimiento del mundo” que los modelos fronterizos más grandes, lo que lleva a un aumento de la alucinación. En PersonQA, el benchmark interno de OpenAI para medir la precisión del conocimiento sobre las personas, gpt-oss-120b alucinó en respuesta al 49% de las preguntas, y gpt-oss-20b en el 53%. Esta tasa es más del triple que la del modelo o1 de OpenAI (16%) y superior a la de su modelo o4-mini (36%).

Entrenamiento y Licencia

OpenAI declaró que sus modelos abiertos fueron entrenados utilizando procesos similares a los de sus modelos propietarios. Cada modelo abierto incorpora una arquitectura de mezcla de expertos (MoE) para activar eficientemente menos parámetros para cualquier consulta dada. Por ejemplo, el gpt-oss-120b, que tiene 117 mil millones de parámetros totales, activa solo 5.1 mil millones de parámetros por token.

Los modelos también se sometieron a un aprendizaje por refuerzo (RL) de alto cómputo durante su fase de post-entrenamiento. Este proceso, que utiliza grandes clústeres de GPU Nvidia en entornos simulados, enseña a los modelos de IA a distinguir las respuestas correctas de las incorrectas. Similar a los modelos de la serie o de OpenAI, los nuevos modelos abiertos emplean un proceso de “cadena de pensamiento”, dedicando tiempo y recursos computacionales adicionales para formular sus respuestas. Este post-entrenamiento ha permitido que los modelos abiertos se destaquen en la potenciación de agentes de IA, permitiéndoles llamar a herramientas como la búsqueda web o la ejecución de código Python. Sin embargo, OpenAI enfatizó que estos modelos abiertos son solo de texto y no pueden procesar o generar imágenes y audio como algunos de los otros modelos de la compañía.

OpenAI está lanzando gpt-oss-120b y gpt-oss-20b bajo la licencia Apache 2.0, ampliamente considerada una de las más permisivas. Esta licencia permite a las empresas monetizar los modelos abiertos de OpenAI sin requerir pago o permiso de la compañía. Sin embargo, a diferencia de las ofertas de laboratorios de IA totalmente de código abierto como AI2, OpenAI no divulgará los datos de entrenamiento utilizados para crear estos modelos. Esta decisión se alinea con el contexto de varias demandas activas contra proveedores de modelos de IA, incluido OpenAI, que alegan un entrenamiento inapropiado sobre obras protegidas por derechos de autor.

Consideraciones de Seguridad

El lanzamiento de los modelos abiertos de OpenAI se retrasó varias veces en los últimos meses, en parte debido a preocupaciones de seguridad. Además de sus protocolos de seguridad estándar, OpenAI realizó investigaciones sobre si actores maliciosos podrían ajustar los modelos gpt-oss para facilitar ciberataques o la creación de armas biológicas o químicas.

Tras las evaluaciones realizadas tanto por OpenAI como por evaluadores de terceros, la compañía concluyó que gpt-oss podría aumentar marginalmente las capacidades biológicas. Sin embargo, no se encontró evidencia de que estos modelos abiertos pudieran alcanzar un umbral de “alta capacidad” para el peligro en estos dominios, incluso después del ajuste fino.

Si bien los nuevos modelos de OpenAI parecen estar a la vanguardia entre las ofertas de código abierto, los desarrolladores también anticipan el lanzamiento de DeepSeek R2, su próximo modelo de razonamiento de IA, y un nuevo modelo abierto del laboratorio de superinteligencia de Meta.