Ejecuta el LLM gpt-oss-20b de OpenAI en Local: Guía Completa

Theregister

OpenAI ha mejorado recientemente la accesibilidad de sus grandes modelos de lenguaje (LLMs) al lanzar dos modelos de “peso abierto”, gpt-oss-20b y gpt-oss-120b, permitiendo a los usuarios descargar y ejecutar estas avanzadas herramientas de IA directamente en sus ordenadores personales. Este desarrollo marca un paso significativo hacia la democratización del acceso a la IA avanzada, permitiendo a los usuarios aprovechar modelos potentes sin depender de la infraestructura en la nube.

El más ligero de los dos, gpt-oss-20b, cuenta con 21.000 millones de parámetros – una medida de su complejidad y tamaño – y requiere aproximadamente 16 GB de memoria libre para funcionar. Su hermano mayor, gpt-oss-120b, es un modelo sustancialmente más exigente con 117.000 millones de parámetros, lo que necesita unos considerables 80 GB de memoria. Para poner esto en perspectiva, un modelo de “frontera” de vanguardia como DeepSeek R1 cuenta con 671.000 millones de parámetros y exige alrededor de 875 GB de memoria, lo que explica por qué los principales desarrolladores de IA están construyendo rápidamente centros de datos masivos. Si bien gpt-oss-120b sigue estando en gran medida fuera del alcance de la mayoría de las configuraciones domésticas, gpt-oss-20b es sorprendentemente accesible.

Para ejecutar gpt-oss-20b, un ordenador necesita una unidad de procesamiento gráfico (GPU) equipada con al menos 16 GB de memoria de acceso aleatorio de video (VRAM) dedicada, o un mínimo de 24 GB de memoria del sistema, asegurando que al menos 8 GB permanezcan disponibles para el sistema operativo y otras aplicaciones. El rendimiento depende crucialmente del ancho de banda de la memoria. Una tarjeta gráfica que utilice memoria GDDR7 o GDDR6X, capaz de transferir datos a más de 1000 GB/s, superará significativamente a la memoria DDR4 o DDR5 de un portátil o de escritorio típico, que opera en el rango de 20 a 100 GB/s.

Para el despliegue local, Ollama emerge como una herramienta clave. Esta aplicación cliente gratuita agiliza el proceso de descarga y ejecución de estos LLM en Windows, Linux y macOS. Los usuarios pueden empezar descargando e instalando Ollama para sus respectivos sistemas operativos. Una vez lanzada, la aplicación suele predeterminar gpt-oss:20b. Iniciar un prompt, como “Escribe una carta”, activará una descarga sustancial de los datos del modelo – aproximadamente de 12,4 GB a 13 GB dependiendo de la plataforma – un proceso que puede llevar una cantidad considerable de tiempo. Una vez completada la descarga, los usuarios pueden interactuar con gpt-oss-20b a través de la intuitiva interfaz gráfica de Ollama.

Para aquellos que prefieren un enfoque más técnico o buscan información sobre el rendimiento, Ollama también admite la operación por interfaz de línea de comandos (CLI). Ejecutar Ollama desde la terminal permite a los usuarios activar un “modo detallado”, que proporciona estadísticas detalladas, incluido el tiempo que se tarda en completar una consulta. Esta opción está disponible en todos los sistemas operativos compatibles, ofreciendo un mayor control e información de diagnóstico.

Para evaluar el rendimiento local de gpt-oss-20b, se realizaron pruebas en tres configuraciones de hardware diversas utilizando dos prompts: una solicitud de una carta de fan de 600 palabras para Taylor Swift y una consulta más simple sobre el primer presidente de EE. UU. Los dispositivos de prueba incluyeron un portátil Lenovo ThinkPad X1 Carbon (CPU Core Ultra 7-165U, 64 GB LPDDR5x-6400 RAM), un Apple MacBook Pro (CPU M1 Max, 32 GB LPDDR5x-6400 RAM) y un PC personalizado con una GPU Nvidia RTX 6000 Ada discreta (CPU AMD Ryzen 9 5900X, 128 GB DDR4-3200 RAM).

El Lenovo ThinkPad X1 Carbon mostró un rendimiento notablemente lento. La carta de fan tardó 10 minutos y 13 segundos, mientras que la simple consulta presidencial requirió 51 segundos. Esta lentitud se atribuyó en gran medida a la incapacidad de Ollama para aprovechar los gráficos integrados o la unidad de procesamiento neuronal (NPU) del portátil, forzando el procesamiento a la CPU menos eficiente. Durante esta fase de “pensamiento”, el modelo suele pasar uno o dos minutos procesando antes de generar la salida. En contraste, el Apple MacBook Pro, a pesar de tener una velocidad de memoria similar a la del ThinkPad, lo superó significativamente, completando la carta de fan en solo 26 segundos y respondiendo a la pregunta presidencial en solo tres segundos. Como era de esperar, el PC de escritorio, impulsado por la GPU Nvidia RTX 6000 Ada de gama alta, entregó la carta de fan en unos rápidos seis segundos y la respuesta a la consulta presidencial en menos de medio segundo.

Estos resultados subrayan que el rendimiento local de gpt-oss-20b depende en gran medida del hardware. Los sistemas equipados con potentes GPU dedicadas o procesadores Apple Silicon modernos pueden esperar un rendimiento robusto. Sin embargo, los usuarios de portátiles con Intel o AMD que dependen de gráficos integrados que Ollama no soporta completamente pueden experimentar retrasos considerables, lo que podría requerir un descanso mientras se procesan sus consultas. Para aquellos que enfrentan estos cuellos de botella de rendimiento, aplicaciones alternativas como LM Studio, que también facilita la ejecución local de LLM, podrían ofrecer una experiencia más optimizada.