Investigador transforma gpt-oss-20b de OpenAI en un modelo base crudo y sin censura
Menos de dos semanas después de que OpenAI lanzara su potente nueva familia de modelos de lenguaje grandes gpt-oss, los primeros modelos de pesos abiertos de la compañía desde 2019, los desarrolladores ya los están remodelando. Un ejemplo llamativo proviene de Jack Morris, estudiante de doctorado en Cornell Tech e investigador en Meta, quien recientemente presentó gpt-oss-20b-base. Esta versión reelaborada del modelo más pequeño gpt-oss-20B de OpenAI elimina sus capacidades de razonamiento incorporadas, revirtiéndolo a un estado crudo y pre-entrenado que ofrece respuestas más rápidas, libres y menos restringidas. El modelo ya está disponible en Hugging Face bajo una permisiva Licencia MIT, lo que permite tanto futuras investigaciones como aplicaciones comerciales.
Para comprender la innovación de Morris, es crucial distinguir entre el lanzamiento de OpenAI y lo que los investigadores de inteligencia artificial llaman un “modelo base”. La mayoría de los grandes modelos de lenguaje ofrecidos por los principales laboratorios de IA, incluidos OpenAI, Anthropic, Google y actores de código abierto como Meta y DeepSeek, están “post-entrenados”. Esto significa que han pasado por una fase adicional en la que se exponen a ejemplos curados de comportamiento deseado. Para los modelos ajustados por instrucciones, esto implica proporcionar numerosos ejemplos de instrucciones emparejadas con respuestas ideales, enseñando a la IA a responder de manera más útil, educada o segura a las solicitudes en lenguaje natural.
Los modelos gpt-oss de OpenAI, lanzados el 5 de agosto, estaban “optimizados para el razonamiento”. Fueron entrenados y ajustados no solo para predecir la siguiente palabra, sino para seguir instrucciones de manera segura y consistente, a menudo empleando un razonamiento estructurado de “cadena de pensamiento” para resolver problemas antes de producir una respuesta final. Este enfoque, que OpenAI introdujo por primera vez con su modelo o1 hace casi un año, ha sido ampliamente adoptado en toda la industria. Obliga a los modelos a “pensar” más tiempo en múltiples pasos y a verificar su propio trabajo, lo que los hace más adecuados para tareas como la codificación, la resolución de problemas matemáticos o la respuesta a preguntas fácticas con explicaciones. Sin embargo, esto también significa que sus respuestas están filtradas y se desvían de contenido considerado inseguro o indeseable.
En contraste, un modelo base es la versión cruda y pre-entrenada de un gran modelo de lenguaje antes de que se aplique cualquier alineación específica de razonamiento. Los modelos base simplemente intentan predecir las palabras siguientes más probables dado el texto precedente, sin barreras de seguridad incorporadas, preferencias estilísticas o comportamientos de rechazo. Son muy valorados por algunos investigadores porque pueden producir resultados más variados y menos restringidos. Estudiar su comportamiento sin filtrar también puede revelar ideas más profundas sobre cómo los modelos almacenan el conocimiento y los patrones derivados de sus datos de entrenamiento.
El objetivo de Morris era “revertir” el proceso de alineación de OpenAI, restaurando el gpt-oss-20B más pequeño a un estado mucho más cercano a su forma pre-entrenada original. Como explicó en un hilo de X anunciando el proyecto: “Básicamente revertimos la parte de alineación del entrenamiento de LLM, así que tenemos algo que produce texto de aspecto natural nuevamente. Ya no se involucra en CoT. Ha vuelto a ser un modelo que simplemente predice el siguiente token en texto genérico.”
En lugar de intentar eludir los filtros de seguridad del modelo con indicaciones inteligentes, lo que Morris encontró ineficaz en los primeros experimentos, siguió una estrategia diferente después de una conversación con John Schulman, ex cofundador de OpenAI y actual científico jefe en Thinking Machines. La idea central era tratar la reversión de la alineación como un problema de optimización menor: si la mayor parte del conocimiento pre-entrenado del modelo permanecía dentro de sus configuraciones internas (pesos), entonces solo una pequeña actualización de bajo rango podría ser necesaria para devolverlo al comportamiento de modelo base.
Morris implementó esto aplicando una actualización de Adaptador de Bajo Rango (LoRA) a solo tres capas específicas del modelo —las capas MLP en las posiciones 7, 15 y 23— con un rango de 16. Esto implicó entrenar aproximadamente 60 millones de parámetros, lo que representa solo el 0.3% del total de 21 mil millones de parámetros del modelo. Utilizó alrededor de 20,000 documentos del conjunto de datos FineWeb, manteniendo un formato lo más cercano posible al pre-entrenamiento original para asegurar que el modelo no aprendiera nueva información, sino que reactivara sus amplias capacidades de generación de texto libre. El proceso de entrenamiento tomó cuatro días en ocho GPU NVIDIA H200, con una tasa de aprendizaje de 2e-6, un tamaño de lote de 16 y una longitud máxima de secuencia de 8,192 tokens. Posteriormente, Morris fusionó los pesos LoRA de nuevo en el modelo, permitiendo a los usuarios ejecutarlo como un artefacto independiente y completamente ajustado. También superó las limitaciones de las herramientas abiertas actuales para el ajuste fino de arquitecturas de Mezcla de Expertos (MoE) como gpt-oss, desarrollando su propio sistema para registrar el progreso con frecuencia y omitir lotes de datos que arriesgaban sobrecargar la memoria de la GPU.
Es importante señalar la aclaración de Morris en respuesta a preguntas de la comunidad: no recuperó los pesos originales del modelo base, que rigen el comportamiento de sus neuronas artificiales. En cambio, afirma que su trabajo “recuperó la distribución del modelo base con cierto error” —lo que significa los patrones de probabilidad que el modelo usa para generar salidas— incluso si los pesos subyacentes que producen esos patrones pueden diferir.
El gpt-oss-20b-base resultante exhibe salidas notablemente más libres. Ya no explica el razonamiento paso a paso por defecto y producirá una gama más amplia de respuestas, incluidas instrucciones que el modelo alineado de OpenAI normalmente rechazaría, como detallar cómo construir un arma, listar blasfemias o planificar actividades ilegales. En pruebas breves, Morris también descubrió que podía reproducir pasajes verbatim de obras con derechos de autor, incluyendo tres de seis extractos de libros que intentó, lo que indica que parte del material memorizado sigue siendo accesible. A pesar de esto, persisten algunos rastros de alineación; si se le solicita en un formato estilo asistente, el modelo aún puede actuar ocasionalmente como un chatbot educado. Cuando se ejecuta a través de la plantilla de chat gpt-oss original, aún puede realizar tareas de razonamiento, aunque con cierta pérdida de calidad. Para obtener resultados óptimos en modo de texto libre, Morris aconseja anteponer a las indicaciones el token especial de inicio de secuencia del modelo y evitar por completo las plantillas de chat.
La familia gpt-oss, que comprende los modelos gpt-oss-120B y gpt-oss-20B, debutó con considerable atención. Estos modelos solo de texto y multilingües están construidos con una arquitectura Transformer de Mezcla de Expertos y fueron lanzados bajo la permisiva licencia Apache 2.0, permitiendo un uso local, ajuste fino y despliegue comercial sin restricciones. Los puntos de referencia de rendimiento de OpenAI indicaron que el modelo más grande de 120B igualó o superó a su propietario o4-mini en tareas de razonamiento y uso de herramientas, mientras que el más pequeño de 20B demostró ser competitivo con o3-mini. Esto marcó el primer lanzamiento de pesos abiertos de OpenAI en seis años, un movimiento ampliamente interpretado como una respuesta a las presiones competitivas de otros proveedores de pesos abiertos, incluidos DeepSeek R1 y Qwen 3 de China. La compañía posicionó gpt-oss tanto como un medio para volver a involucrar a los desarrolladores que habían migrado a modelos de código abierto rivales como una plataforma para la investigación de seguridad en sistemas de pesos abiertos.
La reacción de los desarrolladores a los modelos gpt-oss de OpenAI fue mixta. Los partidarios elogiaron la licencia permisiva, la eficiencia y el buen desempeño en los puntos de referencia STEM, y el CEO de Hugging Face, Clem Delangue, lo calificó como una “adición significativa al ecosistema abierto”. Los críticos, sin embargo, argumentaron que los modelos parecían estar fuertemente entrenados con datos sintéticos, lo que los hacía excelentes en matemáticas y codificación, pero menos capaces en escritura creativa, conocimiento general del mundo y razonamiento multilingüe. Algunos probadores tempranos también plantearon preocupaciones sobre los filtros de seguridad persistentes y el posible sesgo geopolítico.
En este contexto, el gpt-oss-20b-base de Morris se destaca como un ejemplo concreto de cómo los modelos de pesos abiertos pueden adaptarse y reutilizarse en la práctica a los pocos días de su lanzamiento. En marcado contraste con la recepción dividida de gpt-oss de OpenAI, las reacciones al trabajo de Morris han sido abrumadoramente positivas, con un científico informático en X calificándolo como “lo más genial que he visto en Twitter [X] en los últimos meses”. Este enfoque elimina gran parte del comportamiento que OpenAI construyó cuidadosamente, devolviendo el modelo a algo más cercano a un sistema crudo y pre-entrenado. Si bien es invaluable para los investigadores que estudian la memorización, el sesgo o el impacto de la alineación, también conlleva inherentemente mayores riesgos de seguridad. Morris tiene la intención de continuar su investigación para restaurar los modelos de razonamiento a sus formas base pre-entrenadas y sin razonamiento comparando su método de extracción en otros modelos de instrucciones, como los ofrecidos por Qwen.