OpenAI vuelve al código abierto con gpt-oss-120b y 20b

OpenAI, el gigante de la inteligencia artificial detrás de ChatGPT, ha anunciado un cambio estratégico significativo al lanzar dos modelos de IA de peso abierto, gpt-oss-120b y gpt-oss-20b. Esto marca el primer lanzamiento público de pesos de modelos de IA disponibles gratuitamente por parte de la compañía desde GPT-2 en 2019, rompiendo un período de seis años de enfoque en modelos propietarios y de código cerrado.

Los nuevos modelos están disponibles para descargar en plataformas como Hugging Face y están bajo la permisiva licencia Apache 2.0, lo que los hace accesibles tanto para uso comercial como experimental. Este movimiento permite a desarrolladores y empresas una capacidad sin precedentes para ejecutar, adaptar y desplegar modelos de OpenAI completamente bajo sus propios términos, eliminando la dependencia de las API de la nube remotas o la exposición de datos internos sensibles a servicios externos.

Detalles de los Nuevos Modelos

La serie gpt-oss comprende dos modelos distintos, ambos construidos sobre una arquitectura de Mezcla de Expertos (MoE) con una estructura Transformer, lo que mejora la eficiencia al activar menos parámetros por token.

gpt-oss-120b: Este modelo más grande tiene un total de 117 mil millones de parámetros, activando aproximadamente 5.1 mil millones de parámetros por token. Está diseñado para casos de uso de producción, propósito general y alta capacidad de razonamiento, ofreciendo un rendimiento casi a la par con el o4-mini de OpenAI en los puntos de referencia de razonamiento principales. A pesar de su potencia, está optimizado para ejecutarse eficientemente en una sola GPU de 80 GB, lo que lo hace adecuado para centros de datos y ordenadores de escritorio de alta gama.
gpt-oss-20b: El modelo más pequeño y eficiente tiene un total de 21 mil millones de parámetros, con aproximadamente 3.6 mil millones de parámetros activos por token. Está optimizado para una menor latencia y casos de uso locales o especializados, ofreciendo resultados similares al o3-mini de OpenAI en los puntos de referencia comunes. Este modelo puede ejecutarse en dispositivos de borde con solo 16 GB de memoria, lo que lo hace ideal para aplicaciones en dispositivos, hardware de consumo y una iteración rápida sin infraestructura costosa.

Ambos modelos admiten una longitud de contexto de hasta 128,000 tokens, cuentan con razonamiento de Cadena de Pensamiento (CoT) con esfuerzo ajustable y son capaces de seguir instrucciones de manera sólida y usar herramientas, incluida la búsqueda web y la ejecución de código Python. También están cuantificados nativamente en MXFP4 para una inferencia eficiente.

Un Retorno a las Raíces Abiertas

La decisión de OpenAI de abrir el código de estos modelos marca un cambio significativo con respecto a su estrategia reciente. Después de GPT-2, la compañía giró en gran medida hacia un enfoque de código cerrado para modelos como GPT-3 y GPT-4, priorizando los lanzamientos propietarios y el acceso a la API. Este cambio fue impulsado por una combinación de factores, incluyendo la ventaja competitiva, las preocupaciones de seguridad y la maximización de beneficios.

Sin embargo, el panorama del desarrollo de la IA ha evolucionado, con modelos de código abierto de compañías como Meta (Llama) y Mistral ganando una tracción significativa. El CEO de OpenAI, Sam Altman, había reconocido previamente que la compañía podría haber estado “en el lado equivocado de la historia” con respecto a la apertura de su software. Este último lanzamiento sugiere una respuesta a la creciente presión competitiva y un reconocimiento de los beneficios que un ecosistema abierto puede aportar.

Implicaciones para el Panorama de la IA

Se espera que este movimiento de OpenAI tenga implicaciones de gran alcance:

Democratización de la IA: Al hacer que los modelos potentes sean de descarga gratuita y ejecutables localmente, OpenAI está reduciendo las barreras para desarrolladores, investigadores, mercados emergentes y organizaciones más pequeñas que pueden carecer de los recursos para una infraestructura de nube extensa.
Control y Privacidad Mejorados: Ejecutar modelos localmente ofrece un control total sobre la latencia, el costo y la privacidad, ya que los datos sensibles pueden procesarse internamente sin ser enviados a servidores externos.
Fomento de la Innovación: El acceso a modelos de peso abierto bajo una licencia permisiva fomenta la experimentación, la personalización y el ajuste fino de datos específicos del dominio, lo que podría acelerar la investigación y el desarrollo en diversos casos de uso.
Eficiencia de Costos: El despliegue local elimina los costos continuos de API y las tarifas de suscripción asociadas con los servicios de IA basados en la nube, ofreciendo una solución más rentable para el uso escalable de la IA.
Aumento de la Competencia: La reentrada de OpenAI en el espacio de peso abierto intensifica la competencia, empujando a toda la industria hacia un desarrollo de IA más transparente y accesible.

OpenAI ha enfatizado que la seguridad sigue siendo fundamental en su enfoque, y estos modelos han sido sometidos a una formación y evaluaciones de seguridad exhaustivas, incluidas pruebas adversarias. Si bien los modelos están diseñados para seguir las políticas de seguridad de OpenAI por defecto, la compañía señala que los desarrolladores y las empresas deberán implementar salvaguardas adicionales para replicar las protecciones a nivel de sistema integradas en sus modelos de API propietarios.

Este lanzamiento significa un futuro potencial donde el desarrollo de la IA equilibra los avances propietarios con un compromiso con las herramientas y estándares abiertos, con el objetivo final de acelerar la innovación y democratizar el acceso a capacidades avanzadas de IA.

OpenAI vuelve al código abierto con gpt-oss-120b y 20b

Artículos Relacionados

Microsoft lleva el gpt-oss-20b de OpenAI a Windows 11 vía AI Foundry

OpenAI lanza modelos GPT-OSS con licencia Apache, desafiando a sus rivales

OpenAI lanza gpt-oss-120b y 20b: IA Offline para Todos