OpenAI lanza modelos gpt-oss de código abierto para IA local
OpenAI ha presentado gpt-oss-120b y gpt-oss-20b, sus primeros modelos de lenguaje verdaderamente de código abierto (open-weight) desde GPT-2, lo que marca un paso significativo hacia la habilitación de razonamiento y uso de herramientas de IA de alto rendimiento en hardware local. Estos modelos se lanzan bajo la permisiva licencia Apache 2.0, permitiendo una amplia adopción y modificación.
El más potente de los dos, gpt-oss-120b, aprovecha una arquitectura de mezcla de expertos (MoE), activando 5.100 millones de parámetros por token. Este diseño le permite igualar o incluso superar el rendimiento del modelo propietario o4-mini de OpenAI en puntos de referencia de razonamiento críticos, todo mientras se ejecuta eficientemente en una única GPU de 80 GB. Su contraparte más pequeña, gpt-oss-20b, está diseñada para una mayor accesibilidad, activando 3.600 millones de sus 21.000 millones de parámetros. Fundamentalmente, gpt-oss-20b puede operar en hardware de consumo con tan solo 16 GB de memoria, lo que lo hace ideal para la inferencia en el dispositivo o ciclos de desarrollo rápidos sin la necesidad de infraestructura en la nube.
Ambos modelos están equipados para manejar aplicaciones avanzadas de IA, soportando técnicas sofisticadas como el razonamiento en cadena de pensamiento, el uso integrado de herramientas y la generación de salidas estructuradas. Los desarrolladores obtienen la flexibilidad de ajustar el esfuerzo de razonamiento del modelo, permitiéndoles afinar el equilibrio entre la velocidad de procesamiento y la precisión para tareas específicas.
Estos modelos gpt-oss fueron desarrollados utilizando metodologías de entrenamiento adaptadas de los modelos internos de la serie o de OpenAI, incorporando características como incrustaciones posicionales rotatorias y atención multi-consulta agrupada. También cuentan con impresionantes longitudes de contexto de hasta 128k tokens. Evaluaciones exhaustivas en diversos dominios, incluyendo codificación (Codeforces), salud (HealthBench), matemáticas y puntos de referencia de agentes (MMLU, TauBench), demostraron sus sólidas capacidades, incluso en comparación con modelos cerrados como o4-mini y GPT-4o.
En un movimiento para fomentar la investigación sobre el comportamiento del modelo y los riesgos potenciales, OpenAI lanzó estos modelos sin supervisar directamente sus procesos de razonamiento en cadena de pensamiento. Este enfoque permite a los investigadores examinar abiertamente los rastros de razonamiento internos de los modelos en busca de problemas como el sesgo o el uso indebido. Para abordar proactivamente las preocupaciones de seguridad, OpenAI llevó a cabo un ajuste fino riguroso de escenarios de peor caso utilizando datos adversarios, particularmente en los campos sensibles de la biología y la ciberseguridad. La compañía informó que, incluso bajo estas condiciones extenuantes, los modelos no alcanzaron niveles de capacidad de alto riesgo según el Marco de Preparación de OpenAI. Los hallazgos de revisores externos independientes también informaron el lanzamiento final. Para enfatizar aún más su compromiso con la seguridad, OpenAI ha lanzado un desafío de red teaming con un sustancial premio de $500,000, invitando a la comunidad a probar rigurosamente los modelos en escenarios del mundo real.
Los modelos gpt-oss ya están ampliamente disponibles en plataformas como Hugging Face y varios otros servicios de implementación. El modelo gpt-oss-20b, en particular, destaca por sus requisitos mínimos de hardware para la ejecución local. Los usuarios pueden ejecutarlo en una computadora sin conexión a internet después de la descarga inicial, requiriendo al menos 16 GB de RAM (ya sea VRAM o memoria del sistema). Por ejemplo, un MacBook Air con 16 GB de RAM puede ejecutar el modelo a velocidades de decenas de tokens por segundo, mientras que una GPU moderna puede alcanzar cientos de tokens por segundo. Microsoft también está contribuyendo a la accesibilidad del modelo 20B al proporcionar versiones optimizadas para GPU para Windows a través de ONNX Runtime, haciéndolo disponible a través de Foundry Local y el AI Toolkit para VS Code.