OpenAI regresa al código abierto con los LLM gpt-oss-120b y 20b

Analyticsvidhya

OpenAI ha marcado un regreso significativo a sus raíces de código abierto con el lanzamiento de dos nuevos grandes modelos de lenguaje (LLM): gpt-oss-120b y gpt-oss-20b. Estos modelos representan los primeros LLM con licencia abierta de OpenAI desde el innovador GPT-2, lo que indica un compromiso renovado con el acceso comunitario y el desarrollo colaborativo. Lanzados con considerable expectación dentro de la comunidad de inteligencia artificial, los modelos gpt-oss están diseñados para establecer nuevos puntos de referencia en capacidades de razonamiento y uso integrado de herramientas, todo bajo la permisiva licencia Apache 2.0. Esta elección de licencia es crítica, ya que permite a desarrolladores y organizaciones usar y adaptar libremente los modelos tanto para investigación como para aplicaciones comerciales, sin incurrir en tarifas de licencia ni estar sujetos a restricciones de copyleft.

Los modelos gpt-oss se distinguen por varias características innovadoras. Un aspecto único son sus niveles de razonamiento configurables, que permiten a los usuarios especificar si el modelo debe participar en procesos de pensamiento de baja, media o alta profundidad, equilibrando la velocidad con el rigor analítico. A diferencia de muchos modelos propietarios, gpt-oss también ofrece acceso completo a la cadena de pensamiento, proporcionando una visión transparente de sus pasos de razonamiento internos. Esto permite a los usuarios inspeccionar o filtrar las vías analíticas del modelo, lo que ayuda a depurar y generar confianza en su resultado. Además, estos modelos están construidos con capacidades agénticas nativas, lo que significa que están intrínsecamente diseñados para seguir instrucciones y poseen soporte integrado para usar herramientas externas durante sus procesos de razonamiento.

En su núcleo, ambos modelos gpt-oss son redes basadas en Transformer que emplean un diseño de Mezcla de Expertos (MoE). Esta arquitectura permite la eficiencia computacional al activar solo un subconjunto de los parámetros completos —o “expertos”— para cada token de entrada. El gpt-oss-120b más grande cuenta con 117 mil millones de parámetros totales en 36 capas, con aproximadamente 5.1 mil millones de parámetros activos por token, extrayendo de 128 subredes expertas. El gpt-oss-20b más compacto presenta 21 mil millones de parámetros totales en 24 capas, utilizando 32 expertos para lograr aproximadamente 3.6 mil millones de parámetros activos por token. Ambos modelos incorporan características avanzadas como las Incrustaciones Posicionales Rotatorias (RoPE) para manejar ventanas de contexto extensas de hasta 128,000 tokens, y atención multi-consulta agrupada para optimizar el uso de memoria mientras se mantiene una inferencia rápida. Un facilitador clave para su accesibilidad es la cuantificación MXFP4 de 4 bits por defecto, que permite que el modelo de 120B quepa en una sola GPU de 80GB y el modelo de 20B en una memoria GPU más modesta de 16GB, minimizando la pérdida de precisión.

Los requisitos de hardware varían significativamente entre los dos modelos. El gpt-oss-120b exige GPU de alta gama, que suelen requerir 80-100GB de VRAM, lo que lo hace adecuado para GPU individuales de clase A100/H100 o configuraciones multi-GPU. En contraste, el gpt-oss-20b es considerablemente más ligero, funcionando eficientemente con alrededor de 16GB de VRAM, lo que lo hace viable en laptops o con Apple Silicon. Ambos modelos soportan sus impresionantes ventanas de contexto de 128,000 tokens, aunque el procesamiento de entradas tan largas sigue siendo computacionalmente intensivo. Estos modelos se pueden implementar a través de marcos populares como Hugging Face Transformers, vLLM para servicio de alto rendimiento, Ollama para servidores de chat locales y Llama.cpp para entornos basados en CPU o ARM, asegurando una amplia accesibilidad para los desarrolladores.

En pruebas prácticas, el gpt-oss-120b demostró consistentemente capacidades superiores en tareas de razonamiento complejas, como analogías simbólicas, donde derivó metódicamente respuestas correctas. El gpt-oss-20b, aunque eficiente, a veces tuvo dificultades con el mismo nivel de lógica intrincada o restricciones de longitud de salida, destacando la ventaja del modelo más grande en escenarios exigentes. Por ejemplo, en tareas de generación de código C++ que requerían una complejidad de tiempo específica, el modelo de 120B entregó una solución robusta y eficiente, mientras que la salida del modelo de 20B fue menos completa o tuvo problemas con las restricciones dadas.

En los benchmarks estándar, ambos modelos tienen un rendimiento encomiable. El gpt-oss-120b suele obtener puntuaciones más altas que su contraparte de 20B en tareas desafiantes de razonamiento y conocimiento como MMLU y GPQA Diamond, mostrando sus capacidades mejoradas. Sin embargo, el gpt-oss-20b también entregó un rendimiento sólido, notablemente casi igualando al 120B en las tareas del concurso de matemáticas AIME, lo que indica su sorprendente destreza en dominios específicos a pesar de su menor tamaño. El modelo de 120B tiene un rendimiento comparable al modelo interno o4-mini de OpenAI, mientras que el modelo de 20B se alinea con la calidad del o3-mini en muchos benchmarks.

La elección entre los dos modelos depende en gran medida de los requisitos del proyecto y los recursos disponibles. El gpt-oss-120b es la opción ideal para las tareas más exigentes, incluida la generación de código compleja, la resolución avanzada de problemas y las consultas profundas específicas del dominio, siempre que se disponga de la infraestructura de GPU de alta gama necesaria. El gpt-oss-20b, por el contrario, es un caballo de batalla eficiente optimizado para escenarios que requieren velocidad y menor consumo de recursos, como aplicaciones en dispositivos, chatbots de baja latencia o herramientas que integran búsqueda web y llamadas a Python. Sirve como una excelente opción para el desarrollo de pruebas de concepto, aplicaciones móviles o entornos con restricciones de hardware, a menudo entregando una calidad suficiente para muchas aplicaciones del mundo real.

Los modelos gpt-oss abren una amplia gama de aplicaciones. Son altamente efectivos para la generación y reescritura de contenido, capaces de explicar sus procesos de pensamiento, lo que puede ayudar significativamente a escritores y periodistas. En educación, pueden demostrar conceptos paso a paso, proporcionar retroalimentación y potenciar herramientas de tutoría. Sus sólidas capacidades de generación de código, depuración y explicación los convierten en asistentes de codificación invaluables. Para la investigación, pueden resumir documentos, responder preguntas específicas del dominio y analizar datos, siendo el modelo más grande particularmente adecuado para el ajuste fino en campos especializados como el derecho o la medicina. Finalmente, sus capacidades agénticas nativas facilitan la creación de agentes autónomos que pueden navegar por la web, interactuar con API o ejecutar código, integrándose sin problemas en flujos de trabajo complejos basados en pasos.

En conclusión, el lanzamiento de los modelos gpt-oss marca un momento pivotal para OpenAI y el ecosistema de IA en general, democratizando el acceso a potentes modelos de lenguaje. Si bien el gpt-oss-120b supera claramente a su hermano menor en todos los ámbitos —ofreciendo contenido más nítido, resolviendo problemas más difíciles y sobresaliendo en el razonamiento complejo— su intensidad de recursos presenta un desafío de implementación. El gpt-oss-20b, sin embargo, ofrece un equilibrio convincente de calidad y eficiencia, haciendo que la IA avanzada sea accesible en hardware más modesto. Esto no es simplemente una mejora incremental; representa un salto significativo para que las capacidades de IA de vanguardia estén disponibles para una comunidad más amplia, fomentando la innovación y el desarrollo de aplicaciones.