SabiYarn: LLM para Idiomas Minoritarios: Pre-entrenamiento Eficiente

Neptune

Los Grandes Modelos de Lenguaje (LLM) han experimentado avances significativos en los últimos años, principalmente mediante el aumento del tamaño del modelo y los datos de entrenamiento. Este enfoque es altamente intensivo en recursos, a menudo cuesta millones de dólares y representa una barrera sustancial para la inclusión de idiomas con pocos recursos, que con frecuencia carecen tanto de datos como de financiación para recursos computacionales.

Un nuevo artículo, “SabiYarn: Advancing Low-Resource Languages with Multi-task NLP Pre-Training”, aceptado en el taller AfricaNLP de la ACL 2025, introduce una serie de métodos de optimización para el pre-entrenamiento de LLM. Estas innovaciones permitieron entrenar un modelo fundacional multilingüe de vanguardia para idiomas nigerianos en una sola GPU de 24 GB. Una técnica clave propuesta es una estrategia de cálculo de pérdida basada en máscaras, que evita inteligentemente calcular la pérdida en tokens de entrada de la instrucción que el modelo ya conoce. Este método busca asegurar que la función de pérdida refleje con precisión el rendimiento real del modelo en tokens relevantes, evitando así el desperdicio de computación en la retropropagación de pérdidas irrelevantes. Este artículo profundiza en este diseño de pre-entrenamiento consciente del cómputo y su impacto en el rendimiento del modelo.

El alto costo de los tokens de instrucción en entornos de bajos recursos

Durante el pre-entrenamiento, los LLM suelen ser entrenados a través de una tarea de modelado de lenguaje causal, prediciendo el siguiente token en una secuencia. Este es un proceso computacionalmente exigente que involucra billones de tokens, con el objetivo de minimizar la pérdida de entropía cruzada entre los tokens predichos y los reales mediante la retropropagación. A lo largo de este extenso entrenamiento, los modelos adquieren diversas habilidades, memorizan hechos y construyen un modelo integral del mundo.

Para modelos de vanguardia como Llama 4 de Meta o GPT-4 de OpenAI, este proceso puede implicar miles de GPUs funcionando durante meses, realizando más de 10^25 operaciones de punto flotante (FLOPs). Considere un ejemplo de traducción: dada la secuencia “Translate English to Yoruba: I love rice. => Mo fẹ́ràn ìrẹsì,” un LLM estándar se entrena para predecir cada token, desde la instrucción inicial (“Translate English to Yoruba:”) hasta la respuesta real (“Mo fẹ́ràn ìrẹsì”). Aunque es sencillo de implementar, este enfoque trata todos los tokens por igual, lo que significa que se gasta una computación significativa en aprender a predecir tokens que son estáticos o ya conocidos como parte de la instrucción. Si bien es aceptable en entornos con recursos computacionales prácticamente ilimitados, esto se vuelve problemático bajo restricciones de recursos. Si la mitad de la secuencia de entrada es una instrucción inmutable, la mitad de la computación de entrenamiento se desperdicia potencialmente en un aprendizaje redundante.

Integrando la conciencia de la tarea en el pre-entrenamiento

Debido a graves limitaciones computacionales, el proyecto SabiYarn no pudo incorporar una etapa de post-entrenamiento separada, donde los modelos suelen alinearse con los objetivos orientados al usuario utilizando ejemplos supervisados y aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Tales etapas de post-entrenamiento son cruciales para que los modelos generen respuestas útiles y alineadas, por ejemplo, respondiendo a “¿Cómo estás hoy?” con “Estoy bien” en lugar de simplemente completar la secuencia con un signo de interrogación.

Para compensar la ausencia de post-entrenamiento, el equipo de SabiYarn incorporó la conciencia de la tarea directamente en la fase de pre-entrenamiento. Su objetivo era permitir que el modelo generalizara más allá de la predicción básica del siguiente token hacia la resolución de tareas específicas como el reconocimiento de entidades nombradas, el análisis de sentimientos y la traducción, completamente a través del condicionamiento basado en instrucciones. Inspirados por el artículo T5, diseñaron un esquema de entrenamiento específico para tareas utilizando etiquetas de instrucción tipo XML. Por ejemplo, una tarea de traducción de inglés a pidgin se formatearía como <translate> let me call my father </translate>: Make I go call my Papa.

Con este formato estructurado, una innovación crítica fue calcular la pérdida de entropía cruzada solo en los tokens de la etiqueta (“Make I go call my Papa”). Esto se implementó en PyTorch enmascarando los tokens de la instrucción en el tensor de etiquetas usando un índice de ignorar (-100), que la función de pérdida cross_entropy de PyTorch omite por defecto.

Aprendizaje enfocado: Solo lo que importa

Un beneficio inesperado de este enfoque de enmascaramiento es la mejora del enfoque de la tarea. Debido a que el modelo no retropropaga en la porción de entrada de la secuencia, su señal de aprendizaje se origina exclusivamente de los tokens relevantes para la tarea. En un escenario de pre-entrenamiento típico donde la pérdida se calcula en cada token, el modelo aprende a reproducir la estructura de la instrucción y las etiquetas de la tarea junto con la generación de salidas, diluyendo la señal de aprendizaje a lo largo de toda la secuencia.

Por el contrario, con el enmascaramiento de pérdidas, el modelo sigue procesando las conexiones de entrada-salida a través de su mecanismo de auto-atención durante el paso hacia adelante. Sin embargo, el proceso de aprendizaje crucial (retropropagación) ocurre solo al predecir los tokens de salida. Esto puede compararse con la forma en que los humanos aprenden un nuevo idioma: recibimos la entrada completa como contexto, pero nuestro aprendizaje ocurre cuando se nos corrige nuestra traducción, no en la oración de entrada en sí. Al obligar al modelo a tratar las instrucciones como contexto en lugar de un objetivo de predicción, este método dirige el entrenamiento hacia mapeos de entrada-salida y reduce la tendencia a sobreajustar el formato de la instrucción.

Impacto en el rendimiento del entrenamiento

Para validar estos hallazgos, los investigadores realizaron un experimento entrenando un modelo en una compleja tarea de descifrado de oraciones, comparando la pérdida enmascarada con la pérdida no enmascarada. La tarea implicaba transformar oraciones gramaticalmente incoherentes en formas coherentes usando las mismas palabras, por ejemplo, corrigiendo “The equations expensive. show is optimization computationally that.” a “The equations show that optimization is computationally expensive.” Los resultados mostraron que el modelo convergía significativamente más rápido en la tarea cuando la pérdida en la instrucción de entrada no se calculaba. Estas ganancias de eficiencia son sustanciales y se acumulan a lo largo de toda la ejecución del entrenamiento, lo que lleva a una convergencia acelerada.

Compromisos del enmascaramiento

Si bien el enmascaramiento de tokens de instrucción para el cálculo de pérdidas conserva el cómputo y agudiza el enfoque, presenta compromisos. Excluir las instrucciones de la señal de aprendizaje aumenta el riesgo de que el modelo no se adapte bien si la estructura o la fraseología de la instrucción cambian durante la inferencia. Sin embargo, tales compromisos deben sopesarse frente a las realidades de las limitaciones de recursos. En escenarios de entrenamiento de bajos recursos, los enfoques que reducen el cómputo mientras preservan el rendimiento de la tarea central son a menudo más prácticos que las alternativas totalmente supervisadas e intensivas en recursos.

El caso de los LLM en lenguas africanas nativas

Si bien gran parte de la comunidad africana de LLM se ha centrado en adaptar modelos pre-entrenados de código abierto, entrenar un modelo fundacional desde cero, como se hizo en SabiYarn, ofrece ventajas distintas. Este enfoque permite la creación de modelos que no heredan los sesgos culturales incrustados en los corpus euroamericanos. Además, proporciona valiosos conocimientos y datos de investigación sobre la tokenización, el aprendizaje por transferencia, los patrones lingüísticos y las dinámicas de entrenamiento específicamente para las lenguas africanas.

Un aspecto frecuentemente pasado por alto es el tokenizador, que dicta cómo se dividen los idiomas en tokens para el procesamiento de LLM. Entrenar tokenizadores personalizados y específicos del idioma permite la integración de estructuras morfológicas y fonológicas únicas, como los diacríticos tonales en yoruba, que conllevan significado semántico. Esto también mejora la eficiencia, ya que el tokenizador puede descomponer eficazmente cada idioma en tokens que reconocen estructuras gramaticales útiles como afijos y puntuación, que el modelo puede luego aprovechar para representaciones significativas. En contraste, el uso de tokenizadores existentes no entrenados en los idiomas objetivo a menudo conduce a una tokenización deficiente, una representación gramatical inexacta, longitudes de secuencia infladas y, en última instancia, un rendimiento degradado, particularmente para modelos más pequeños con menores demandas computacionales.

De cara al futuro, el grupo de investigación SabiYarn planea explorar arquitecturas de LLM modernas, incorporando estrategias de razonamiento, seguimiento de instrucciones y computación en tiempo de prueba dentro del pre-entrenamiento con recursos limitados. Su trabajo futuro también incluye optimizaciones específicas de hardware para el entrenamiento y la inferencia, y la expansión de sus esfuerzos para incluir una gama aún más amplia de lenguas africanas.

SabiYarn: LLM para Idiomas Minoritarios: Pre-entrenamiento Eficiente - OmegaNext Noticias IA