OpenAI Presenta sus Primeros Modelos de IA de Peso Abierto desde GPT-2
OpenAI, una empresa a menudo asociada con sus potentes modelos de IA propietarios, ha marcado un cambio estratégico significativo al presentar sus primeros modelos de inteligencia artificial de peso abierto desde el lanzamiento de GPT-2 en 2019. Este movimiento introduce dos nuevos modelos, gpt-oss-120b y gpt-oss-20b, diseñados para democratizar las capacidades avanzadas de IA al permitir la implementación local y tareas de razonamiento sofisticadas. Amazon ha sido anunciado como un cliente inicial, integrando estos modelos en sus ofertas en la nube.
Los modelos gpt-oss recién lanzados están disponibles bajo la permisiva licencia Apache 2.0, lo que señala la intención de OpenAI de fomentar una innovación y adopción más amplias dentro de la comunidad de IA. El gpt-oss-120b, el más grande de los dos, demuestra un rendimiento cercano al del modelo propietario o4-mini de OpenAI en los puntos de referencia de razonamiento principales, pero está optimizado para ejecutarse eficientemente en una sola GPU de 80 GB. Su contraparte más pequeña, gpt-oss-20b, ofrece capacidades comparables a las del o3-mini de OpenAI y puede operar en dispositivos de borde con tan solo 16 GB de memoria, lo que lo hace ideal para su implementación en laptops y otro hardware de consumo. Ambos modelos se basan en una arquitectura Transformer de Mezcla de Expertos (MoE), con gpt-oss-120b activando 5.1 mil millones de parámetros por token de un total de 117 mil millones, y gpt-oss-20b activando 3.6 mil millones de parámetros por token de sus 21 mil millones totales. Admiten una ventana de contexto expansiva de hasta 128,000 tokens y sobresalen en una variedad de aplicaciones que incluyen codificación, matemáticas a nivel de competición, consultas relacionadas con la salud y uso de herramientas agenciales, con capacidades completas de razonamiento de Cadena de Pensamiento (CoT) y ejecución de herramientas.
Este lanzamiento significa un cambio notable en el enfoque de OpenAI, que durante años había priorizado los modelos cerrados y basados en API. La decisión de ofrecer modelos de peso abierto está impulsada por el deseo de reducir las barreras para desarrolladores, investigadores y organizaciones, particularmente aquellos en mercados emergentes o con limitaciones de recursos. Al proporcionar modelos que se pueden ejecutar localmente en la propia infraestructura de un usuario, OpenAI tiene como objetivo otorgar un mayor control sobre la latencia, el costo y la privacidad de los datos, eliminando la dependencia de las API de la nube remotas para operaciones sensibles. Si bien estos son modelos de “peso abierto”, lo que significa que los parámetros entrenados son públicamente accesibles para el ajuste fino y la ejecución local, no son de “código abierto” en el sentido más estricto, ya que los datos de entrenamiento subyacentes y el código fuente completo no se liberan, una distinción que OpenAI atribuye a consideraciones legales y de seguridad.
Los modelos gpt-oss están disponibles para descargar en plataformas como Hugging Face y GitHub, admitiendo la implementación en varios sistemas operativos, incluidos MacOS, Linux y Windows Subsystem for Linux (WSL) 2.0. Más allá de las descargas directas, estos modelos también están integrados en las principales plataformas en la nube. Amazon Web Services (AWS) ha puesto a disposición gpt-oss-120b y gpt-oss-20b a través de Amazon Bedrock y Amazon SageMaker JumpStart, lo que marca la primera vez que los modelos de OpenAI se alojan en Bedrock. De manera similar, Microsoft está ofreciendo estos modelos a través de Azure AI Foundry y Windows AI Foundry, ampliando aún más su accesibilidad en diversos entornos informáticos. Esta disponibilidad multiplataforma subraya una tendencia creciente de la industria hacia un ecosistema de IA más abierto y flexible.
OpenAI ha enfatizado que el lanzamiento de estos modelos de peso abierto siguió a extensas evaluaciones de seguridad, incluidas rigurosas pruebas internas y revisiones de expertos independientes. La compañía implementó técnicas avanzadas de post-entrenamiento, que reflejan las utilizadas para sus modelos de frontera propietarios, para alinear los modelos gpt-oss con sus estándares de seguridad y mejorar sus capacidades de razonamiento y uso de herramientas. Para abordar aún más los riesgos potenciales, OpenAI ha lanzado un Desafío de Equipo Rojo, ofreciendo un premio de $500,000 para identificar y mitigar problemas de seguridad dentro de estos nuevos modelos de peso abierto.
Este giro estratégico de OpenAI, al hacer que sus potentes modelos de razonamiento sean accesibles para la implementación local, promete acelerar la investigación y el desarrollo de la IA en un espectro más amplio de aplicaciones, brindando a los desarrolladores un control y una flexibilidad sin precedentes.