OpenAI lanza nuevos modelos de lenguaje gpt-oss de peso abierto: ¡IA para todos!
OpenAI ha anunciado el lanzamiento de gpt-oss-120b y gpt-oss-20b, dos nuevos modelos de lenguaje de peso abierto de vanguardia diseñados para ofrecer un rendimiento robusto en el mundo real a bajo costo. Disponibles bajo la permisiva licencia Apache 2.0, esta medida marca la primera vez que OpenAI lanza modelos de lenguaje grandes de peso abierto desde GPT-2 en 2019, lo que señala un paso significativo hacia una mayor accesibilidad en el ecosistema de la IA.
Los modelos gpt-oss están diseñados para sobresalir en tareas de razonamiento y demuestran sólidas capacidades de uso de herramientas, superando a modelos abiertos de tamaño similar. El modelo gpt-oss-120b, más grande, con 116.8 mil millones de parámetros totales y 5.1 mil millones de parámetros activos por token, logra una paridad casi total con el modelo propietario o4-mini de OpenAI en los puntos de referencia de razonamiento principales. Notablemente, este potente modelo está optimizado para ejecutarse eficientemente en una sola GPU de 80 GB.
Para implementaciones más accesibles, el modelo gpt-oss-20b, con 20.9 mil millones de parámetros totales y 3.6 mil millones de parámetros activos, ofrece un rendimiento comparable al o3-mini de OpenAI. Crucialmente, este modelo más pequeño puede operar en hardware de consumo con tan solo 16 GB de memoria, lo que lo hace ideal para casos de uso en dispositivos, inferencia local y desarrollo rápido sin requerir una infraestructura costosa. Ambos modelos aprovechan un esquema de cuantificación de 4 bits (MXFP4) para sus pesos de Mixture-of-Experts (MoE), lo que reduce significativamente la huella de memoria y permite una inferencia eficiente.
Los modelos gpt-oss son transformadores de Mixture-of-Experts (MoE) autorregresivos solo de texto, construidos sobre las arquitecturas fundamentales de GPT-2 y GPT-3. Están diseñados para una integración perfecta en flujos de trabajo de agentes, con una excepcional capacidad de seguimiento de instrucciones, uso avanzado de herramientas como búsqueda web y ejecución de código Python, y capacidades de razonamiento personalizables, incluida la capacidad de ajustar el esfuerzo de razonamiento para tareas que requieren diferentes niveles de complejidad o latencia. Los desarrolladores también pueden beneficiarse de Chain-of-Thought (CoT) completo y Salidas Estructuradas, lo que ofrece un mayor control y transparencia sobre los procesos de los modelos. Más allá del razonamiento general, estos modelos muestran una fuerza particular en áreas como matemáticas de competición, codificación y consultas relacionadas con la salud, incluso superando a algunos modelos propietarios en puntos de referencia como HealthBench.
Este lanzamiento es un desarrollo notable en el panorama evolutivo de la IA, donde los modelos de peso abierto están democratizando cada vez más el acceso a potentes tecnologías de IA. Al poner estos modelos a disposición bajo la licencia Apache 2.0, OpenAI permite a los desarrolladores y organizaciones descargar, ajustar y desplegar IA en su propia infraestructura, reduciendo la dependencia de las API específicas del proveedor y fomentando un mayor control y personalización. Este cambio se alinea con una tendencia industrial más amplia donde los sistemas de peso abierto están cerrando la brecha de rendimiento con los modelos cerrados, reduciendo las barreras de entrada y acelerando la innovación a través de la colaboración comunitaria. Los modelos gpt-oss están disponibles para descargar en Hugging Face y también se puede acceder a ellos a través de Amazon Bedrock y Amazon SageMaker AI en AWS, así como a través de Ollama.
OpenAI enfatiza que la seguridad sigue siendo un aspecto fundamental de su enfoque para el lanzamiento de modelos, especialmente para modelos abiertos donde existe el potencial de uso indebido una vez que están disponibles públicamente. Los modelos gpt-oss se sometieron a una capacitación y evaluaciones de seguridad exhaustivas, incluida la prueba de versiones ajustadas de forma adversa. Si bien están diseñados para cumplir con las políticas de seguridad de OpenAI por defecto, la compañía señala que los desarrolladores y empresas que utilicen estos modelos deberán implementar salvaguardas adicionales para replicar las protecciones a nivel de sistema que suelen incorporarse en los modelos servidos por la API de OpenAI. Esto refleja una responsabilidad compartida para la implementación ética a medida que las capacidades de IA se distribuyen más ampliamente.