Gemma 3 270M de Google: La LLM compacta para IA en dispositivos
Google ha presentado una importante nueva adición a su familia de modelos de lenguaje grandes (LLM) “abiertos”: Gemma 3 270M. Este modelo de tamaño reducido, con solo 270 millones de parámetros y que requiere alrededor de 550MB de memoria, está diseñado para revolucionar el despliegue en dispositivos y acelerar la iteración de modelos. Su lanzamiento viene con las advertencias habituales de la industria sobre posibles alucinaciones, resultados inconsistentes y la siempre presente cuestión de las implicaciones de derechos de autor derivadas de sus datos de entrenamiento.
La familia Gemma original, lanzada en febrero de 2024, ofrecía dos versiones principales: un modelo de dos mil millones de parámetros optimizado para su ejecución directamente en la unidad central de procesamiento (CPU) de una computadora, y una variante más potente de siete mil millones de parámetros destinada a sistemas equipados con unidades de procesamiento gráfico (GPU) o unidades de procesamiento de tensor (TPU) de Google. Aunque Google posiciona los modelos Gemma como “abiertos” en contraste con su serie propietaria Gemini, es importante señalar que, al igual que la mayoría de los modelos “abiertos” de la competencia, no incluyen el código fuente subyacente ni los datos de entrenamiento brutos. En cambio, los usuarios reciben modelos preentrenados y sus pesos asociados, una característica que se mantiene para esta última incorporación a lo que Google denomina el “Gemmaverso”.
El nuevo y más pequeño modelo Gemma 3 270M está específicamente optimizado para su uso en dispositivos, capaz de ejecutarse eficientemente con una RAM mínima. Google sugiere que es ideal para tareas “de alto volumen y bien definidas” o escenarios donde “cada milisegundo y microcéntimo cuentan”. Su diseño enfatiza el desarrollo rápido, derivado de la velocidad con la que se puede ajustar (fine-tuning), un proceso que personaliza un modelo preentrenado para aplicaciones específicas. Esta capacidad, sugiere Google, puede llevar a la creación sin esfuerzo de “una flota de modelos de tareas especializados”.
Los puntos de referencia internos, aunque no verificados, indican que Gemma 3 270M supera a modelos de tamaño similar como SmollLM2-360M-Instruct y Qwen 2.5 0.5B Instruct en el punto de referencia de seguimiento de instrucciones IFEval. Predeciblemente, ofrece un rendimiento significativamente menor que el Gemma 3 1B, cuatro veces más grande, obteniendo 51.2 en comparación con los 80.2 de este último. Google insiste en que el modelo 270M no está diseñado para un rendimiento bruto. En cambio, su principal punto de venta es la eficiencia energética. Cuando se cuantifica a precisión INT4, un proceso que reduce la precisión de los datos numéricos del modelo para ahorrar memoria y mejorar la velocidad, con puntos de control de entrenamiento conscientes de la cuantificación (QAT) preestablecidos que garantizan un impacto mínimo en el rendimiento sobre INT8, las pruebas internas de Google en un smartphone Pixel 9 Pro mostraron un drenaje de batería de solo 0.75 puntos porcentuales para 25 conversaciones de longitud no especificada.
Quizás el aspecto más sorprendente de este modelo en miniatura es su conjunto de datos de entrenamiento. A pesar de su pequeño número de parámetros, el modelo de 270 millones de parámetros fue entrenado con una cantidad declarada de seis billones de tokens, piezas de texto y datos utilizados para enseñar a la IA. Esto es tres veces la cantidad de datos utilizados para la versión de mil millones de parámetros y una vez y media la de la versión de cuatro mil millones de parámetros. Solo los modelos más grandes de Google, de 12 mil millones y 27 mil millones de parámetros, lo superan, entrenados con 12 billones y 14 billones de tokens respectivamente. Al igual que todos los demás modelos Gemma 3, el conjunto de datos tiene una “fecha de corte de conocimiento” de agosto de 2024, lo que significa que cualquier información posterior a esa fecha debería incorporarse durante el ajuste fino o mediante el prompting directo.
El nuevo modelo compacto, al igual que sus predecesores Gemma más grandes, está disponible de forma gratuita. Sin embargo, su uso está sujeto a un conjunto de restricciones descritas en la política de uso prohibido de Google. El incumplimiento de estos términos otorga a Google el derecho de restringir de forma remota o de otro modo el acceso a cualquier servicio de Gemma que considere razonablemente que está en violación. Estas restricciones incluyen la prohibición de generar contenido que infrinja los derechos de propiedad intelectual, participar en actividades peligrosas, ilegales o maliciosas, practicar la medicina o la contabilidad sin licencia, o generar spam. Más controvertidamente, la política también prohíbe “intentos de anular o eludir los filtros de seguridad” y la generación de “contenido sexualmente explícito”, aunque este último incluye una excepción para el contenido creado con fines científicos, educativos, documentales o artísticos. Para los desarrolladores ansiosos por experimentar con este último modelo en el “Gemmaverso”, está disponible en plataformas como Hugging Face, Ollama, Kaggle, LM Studio y Docker, y Google también proporciona una guía completa para ajustar el modelo para aplicaciones específicas.