SabiYarn:突破计算瓶颈,高效预训练低资源语言LLM

Neptune

近年来,大型语言模型(LLM)取得了显著进展,这主要得益于模型规模和训练数据的不断扩大。这种方法资源密集度极高,通常耗资数百万美元,对低资源语言的包容性构成了巨大障碍,因为这些语言往往缺乏数据和计算资源资金。

在2025年ACL的AfricaNLP研讨会上,一篇名为《SabiYarn:通过多任务自然语言处理预训练推进低资源语言》的新论文被接受,该论文介绍了一系列LLM预训练的优化方法。这些创新使得在单个24GB GPU上训练出针对尼日利亚语言的最先进多语言基础模型成为可能。其中提出的一个关键技术是基于掩码的损失计算策略,它巧妙地避免了对模型已知输入提示词元计算损失。这种方法旨在确保损失函数准确反映模型在相关词元上的真实性能,从而防止因反向传播不相关损失而浪费计算资源。本文将深入探讨这种计算感知型预训练设计及其对模型性能的影响。

低资源环境下提示词元的高昂成本

在预训练期间,LLM通常通过因果语言建模任务进行训练,即预测序列中的下一个词元。这是一个计算量巨大的过程,涉及数万亿个词元,目标是通过反向传播最小化预测词元和实际词元之间的交叉熵损失。通过这种广泛的训练,模型获得了各种技能,记忆了事实,并构建了一个全面的世界模型。

对于Meta的Llama 4或OpenAI的GPT-4等尖端模型,这一过程可能涉及数千个GPU运行数月,执行超过10^25次浮点运算(FLOPs)。以翻译为例:给定序列“Translate English to Yoruba: I love rice. => Mo fẹ́ràn ìrẹsì,”,一个标准的LLM被训练来预测每个词元,从初始提示(“Translate English to Yoruba:”)到实际答案(“Mo fẹ́ràn ìrẹsì”)。尽管实现起来简单,但这种方法平等对待所有词元,这意味着大量的计算被用于学习预测那些静态的或作为提示一部分已知存在的词元。在计算资源几乎无限的环境中这或许可以接受,但在资源受限的情况下,这就会成为问题。如果输入序列的一半是不变的指令,那么一半的训练计算可能被浪费在冗余学习上。

将任务感知融入预训练

由于严峻的计算限制,SabiYarn项目无法纳入单独的后训练阶段,在该阶段模型通常通过监督示例和人类反馈强化学习(RLHF)与面向用户的目标对齐。这些后训练阶段对于模型生成有帮助且对齐的响应至关重要,例如,对“你今天怎么样?”回答“我很好”,而不是仅仅用问号完成序列。

为了弥补缺乏后训练的不足,SabiYarn团队将任务感知直接嵌入到预训练阶段。他们的目标是使模型能够通过基于提示的条件化,超越基本的下一个词元预测,泛化到解决命名实体识别、情感分析和翻译等特定任务。受T5论文的启发,他们设计了一种使用类似XML提示标签的任务特定训练方案。例如,英语到皮钦语的翻译任务将被格式化为<translate> let me call my father </translate>: Make I go call my Papa

采用这种结构化格式后,一个关键的创新是仅对标签词元(“Make I go call my Papa”)计算交叉熵损失。这在PyTorch中通过使用忽略索引(-100)在标签张量中掩盖提示词元来实现,PyTorch的cross_entropy损失函数默认会跳过这些被掩盖的词元。

聚焦学习:只关注重要内容

这种掩码方法的一个意外好处是提高了任务焦点。由于模型不会对序列的输入部分进行反向传播,其学习信号完全来源于与任务相关的词元。在典型的预训练场景中,损失在每个词元上计算,模型在生成输出的同时也会学习复制提示结构和任务标签,从而稀释了整个序列的学习信号。

相反,通过损失掩码,模型在正向传播期间仍然通过其自注意力机制处理输入-输出连接。然而,关键的学习过程(反向传播)仅在预测输出词元时发生。这可以类比于人类学习新语言的方式:我们接收完整的输入作为上下文,但我们的学习发生在我们的翻译被纠正时,而不是在输入句子本身上。通过强制模型将提示视为上下文而非预测目标,这种方法将训练导向输入-输出映射,并减少了对提示格式过拟合的倾向。

对训练性能的影响

为了验证这些发现,研究人员进行了一项实验,在一个复杂的句子解扰任务上训练模型,比较了掩码损失和非掩码损失。该任务涉及将语法不连贯的句子用相同的词语转换为连贯的形式,例如,将“The equations expensive. show is optimization computationally that.”修正为“The equations show that optimization is computationally expensive.”。结果表明,当输入提示上的损失未被计算时,模型在该任务上的收敛速度显著加快。这些效率提升是巨大的,并在整个训练过程中累积,从而加速了收敛。

掩码的权衡

尽管为损失计算掩盖提示词元可以节省计算资源并提高焦点,但它也存在权衡。将提示从学习信号中排除会增加模型在推理过程中如果提示结构或措辞发生变化时可能无法很好适应的风险。然而,这些权衡必须与资源限制的现实情况进行权衡。在低资源训练场景中,在保留核心任务性能的同时减少计算量的方法通常比完全监督的、资源密集型替代方案更为实用。

支持非洲本土语言LLM的理由

尽管非洲LLM社区的许多工作都集中在改编开源预训练模型上,但像SabiYarn那样从头开始训练基础模型具有独特的优势。这种方法能够创建不继承欧洲-美洲语料库中嵌入的文化偏见的模型。此外,它还为非洲语言特有的词元化、迁移学习、语言模式和训练动态提供了宝贵的研究见解和数据。

一个经常被忽视的方面是词元分析器(tokenizer),它决定了语言如何被分解成词元以供LLM处理。训练定制的、特定于语言的词元分析器,能够整合独特的形态和语音结构,例如约鲁巴语中的声调变音符号,它们携带着语义。这也提高了效率,因为词元分析器可以有效地将每种语言分解成识别有用语法结构(如词缀和标点符号)的词元,模型随后可以利用这些词元进行有意义的表示。相比之下,使用未经目标语言训练的现有词元分析器通常会导致词元化质量差、语法表示不准确、序列长度膨胀,并最终导致性能下降,特别是对于计算需求较低的小型模型。

展望未来,SabiYarn研究小组计划在资源受限的预训练框架内,探索现代LLM架构,并融入推理、指令遵循和测试时计算策略。他们未来的工作还包括针对训练和推理的硬件特定优化,以及将努力扩展到包含更广泛的非洲语言。

SabiYarn:突破计算瓶颈,高效预训练低资源语言LLM - OmegaNext AI 新闻