Los nuevos LLM de código abierto de OpenAI generan reacciones mixtas

Venturebeat

OpenAI, una compañía cuyo propio nombre implica apertura, hizo recientemente un giro significativo al lanzar dos nuevos modelos de lenguaje grandes (LLMs), gpt-oss-120B y gpt-oss-20B, bajo la permisiva licencia de código abierto Apache 2.0. Este movimiento marca la primera vez desde 2019 que OpenAI pone a disposición del público un modelo de lenguaje de vanguardia para uso sin restricciones, señalando un notable alejamiento del enfoque propietario y de código cerrado que ha definido la era ChatGPT durante los últimos 2.7 años. Durante este período, los usuarios generalmente pagaban por el acceso a los modelos de OpenAI, con personalización limitada y sin la capacidad de ejecutarlos sin conexión o en hardware privado.

Los nuevos modelos gpt-oss tienen como objetivo democratizar el acceso a la potente IA. El gpt-oss-120B, más grande, está diseñado para su implementación en una sola GPU Nvidia H100, adecuado para centros de datos de empresas pequeñas a medianas, mientras que su contraparte más pequeña, gpt-oss-20B, es lo suficientemente ligera como para ejecutarse en un portátil de consumo. Sin embargo, a pesar de lograr impresionantes benchmarks técnicos que se alinean con las potentes ofertas propietarias de OpenAI, la comunidad más amplia de desarrolladores y usuarios de IA ha respondido con una gama de opiniones notablemente diversa, similar a un estreno de película que recibe una división casi 50/50 en un agregador de reseñas.

Las pruebas iniciales independientes han arrojado comentarios que oscilan entre el entusiasmo optimista y una corriente subyacente de insatisfacción. Gran parte de las críticas provienen de comparaciones directas con la creciente ola de potentes LLMs multimodales que emergen de startups chinas, que también tienen licencia Apache 2.0 y pueden adaptarse y ejecutarse libremente de forma local en cualquier parte del mundo.

Aunque los benchmarks de inteligencia de la firma independiente Artificial Analysis posicionan a gpt-oss-120B como “el modelo de pesos abiertos estadounidense más inteligente”, todavía se queda corto cuando se mide contra pesos pesados chinos como DeepSeek R1 y Qwen3 235B. Esta disparidad ha alimentado el escepticismo. Un autoproclamado entusiasta de DeepSeek, @teortaxesTex, comentó que los modelos parecen haber “superado meramente los benchmarks”, prediciendo una falta de buenos modelos derivados o nuevos casos de uso. El seudónimo investigador de IA de código abierto Teknium, cofundador de Nous Research, se hizo eco de esto, calificando el lanzamiento como una “legítima nada” y expresando una profunda decepción, anticipando un rápido eclipse por parte de un competidor chino.

Otras críticas se han centrado en la percibida utilidad limitada de los modelos gpt-oss. El influyente de IA “Lisan al Gaib” observó que si bien los modelos sobresalen en matemáticas y codificación, “carecen completamente de gusto y sentido común”, cuestionando su aplicabilidad más amplia. Este enfoque de “bench-maxxing”, optimizando en gran medida para benchmarks específicos, supuestamente conduce a resultados inusuales; Teknium compartió una captura de pantalla que muestra al modelo inyectando una fórmula integral a mitad de un poema durante las pruebas de escritura creativa. Investigadores como @kalomaze de Prime Intellect y el ex Googler Kyle Corbitt especularon que los modelos gpt-oss probablemente fueron entrenados predominantemente con datos sintéticos, datos generados por IA utilizados específicamente para entrenar nuevos modelos. Este enfoque, posiblemente adoptado para eludir problemas de derechos de autor o evitar problemas de seguridad asociados con datos del mundo real, da como resultado modelos que son “extremadamente irregulares”, rindiendo excepcionalmente bien en tareas entrenadas como codificación y matemáticas, pero pobremente en tareas más lingüísticas como la escritura creativa o la generación de informes.

También surgieron preocupaciones de las evaluaciones de benchmarks de terceros. SpeechMap, que evalúa el cumplimiento de los LLM con las indicaciones del usuario para salidas no permitidas o sensibles, mostró que gpt-oss-120B obtuvo menos del 40%, cerca del último de sus pares, lo que indica una fuerte tendencia a recurrir a las barreras de seguridad internas. En la evaluación Polyglot de Aider, gpt-oss-120B logró solo el 41.8% en razonamiento multilingüe, quedando significativamente por detrás de sus competidores. Algunos usuarios también informaron una resistencia inusual a generar críticas a China o Rusia, en contraste con su trato a EE. UU. y la UE, lo que plantea preguntas sobre posibles sesgos en sus datos de entrenamiento.

A pesar de estas críticas, no todas las reacciones han sido negativas. El ingeniero de software Simon Willison elogió el lanzamiento como “realmente impresionante”, destacando la eficiencia de los modelos y su capacidad para lograr paridad con los modelos propietarios o3-mini y o4-mini de OpenAI. Elogió su sólido rendimiento en razonamiento y benchmarks intensivos en STEM, junto con la innovadora plantilla de prompt “Harmony” y el soporte para el uso de herramientas de terceros. Clem Delangue, CEO de Hugging Face, instó a la paciencia, sugiriendo que los problemas iniciales podrían deberse a la inestabilidad de la infraestructura y a una optimización insuficiente. Enfatizó que “el poder del código abierto es que no hay trampas”, asegurando que las verdaderas fortalezas y limitaciones de los modelos se descubrirían progresivamente.

Ethan Mollick, profesor de la Wharton School, reconoció que EE. UU. ahora probablemente posee modelos de pesos abiertos líderes, pero cuestionó el compromiso a largo plazo de OpenAI, señalando que esta ventaja podría “evaporarse rápidamente” si la compañía carece de incentivos para mantener los modelos actualizados. Nathan Lambert, un prominente investigador de IA en el Allen Institute for AI (Ai2), elogió la importancia simbólica del lanzamiento para el ecosistema abierto, particularmente para las naciones occidentales, reconociendo el importante paso de la marca de IA más reconocida que regresa a los lanzamientos abiertos. Sin embargo, advirtió que gpt-oss es “poco probable que ralentice significativamente” a competidores chinos como Qwen, debido a su usabilidad y variedad existentes. Lambert concluyó que si bien el lanzamiento marca un cambio crucial en EE. UU. hacia los modelos abiertos, OpenAI todavía tiene “un largo camino de regreso” para ponerse al día en la práctica.