SabiYarn:単一GPUで低リソース言語LLMを効率学習

Neptune

大規模言語モデル(LLM)は近年、主にモデルサイズと学習データの拡大を通じて目覚ましい進歩を遂げてきました。このアプローチは非常にリソース集約的であり、しばしば数百万ドルの費用がかかり、データと計算リソースの資金の両方が不足しがちな低リソース言語の包含に大きな障壁をもたらしています。

2025年のACLで開催されるAfricaNLPワークショップで採択された新しい論文「SabiYarn: Advancing Low-Resource Languages with Multi-task NLP Pre-Training」は、LLMの事前学習のための最適化手法を複数紹介しています。これらの革新により、ナイジェリア言語向けの最先端の多言語基盤モデルを単一の24GB GPUで学習させることが可能になりました。提案された主要な技術の一つは、マスクベースの損失計算戦略であり、モデルが既に知っている入力プロンプトトークンに対する損失計算を巧みに回避します。この手法は、損失関数が関連するトークンに対するモデルの真の性能を正確に反映することを目的とし、それによって無関係な損失の逆伝播による計算の無駄を防ぎます。この記事では、この計算を意識した事前学習設計とそれがモデル性能に与える影響について掘り下げます。

低リソース環境におけるプロンプトトークンの高コスト

事前学習中、LLMは通常、シーケンス内の次のトークンを予測する因果言語モデリングタスクを通じて学習されます。これは数兆のトークンを扱う計算負荷の高いプロセスであり、予測されたトークンと実際のトークン間の交差エントロピー損失を逆伝播によって最小化することを目標としています。この広範な学習を通じて、モデルは様々なスキルを習得し、事実を記憶し、包括的な世界モデルを構築します。

MetaのLlama 4やOpenAIのGPT-4のような最先端モデルの場合、このプロセスには数千ものGPUが数ヶ月間稼働し、10^25回以上の浮動小数点演算(FLOPs)を実行することがあります。翻訳の例を考えてみましょう。「Translate English to Yoruba: I love rice. => Mo fẹ́ràn ìrẹsì」というシーケンスが与えられた場合、標準的なLLMは、最初のプロンプト(「Translate English to Yoruba:」)から実際の回答(「Mo fẹ́ràn ìrẹsì」)まで、すべてのトークンを予測するように学習されます。実装は簡単ですが、このアプローチではすべてのトークンが均等に扱われるため、静的であるか、プロンプトの一部として既に知られているトークンの予測を学習するためにかなりの計算が費やされます。計算能力が事実上無制限の環境では許容されますが、リソースが制約される状況では問題となります。入力シーケンスの半分が不変の指示である場合、学習計算の半分が冗長な学習に無駄に費やされる可能性があります。

事前学習へのタスク認識の統合

深刻な計算上の制約のため、SabiYarnプロジェクトでは、モデルが通常、教師あり学習の例と人間からのフィードバックによる強化学習(RLHF)を使用して、ユーザー向けの目標に合わせられる個別の後学習段階を組み込むことができませんでした。このような後学習段階は、モデルが役立つ整合性の取れた応答を生成するために不可欠です。例えば、「How are you today?」に対して単に疑問符でシーケンスを完了するのではなく、「I’m doing good」と応答するなどです。

後学習の欠如を補うため、SabiYarnチームはタスク認識を事前学習フェーズに直接組み込みました。彼らの目的は、モデルが基本的な次トークン予測を超えて、固有名詞認識、感情分析、翻訳などの特定のタスクを、プロンプトベースの条件付けのみで解決できるようにすることでした。T5論文に触発され、XMLのようなプロンプトタグを使用したタスク固有の学習スキームを設計しました。例えば、英語からピジン語への翻訳タスクは、<translate> let me call my father </translate>: Make I go call my Papaのようにフォーマットされます。

この構造化された形式を用いることで、重要な革新は、ラベルトークン(「Make I go call my Papa」)のみに対して交差エントロピー損失を計算することでした。これはPyTorchで、PyTorchのcross_entropy損失関数がデフォルトでスキップする無視インデックス(-100)を使用して、ラベルテンソル内のプロンプトトークンをマスクすることで実装されました。

集中学習:重要なものだけ

このマスキングアプローチの予期せぬ利点は、タスクへの集中度向上です。モデルがシーケンスの入力部分で逆伝播を行わないため、学習信号はタスク関連のトークンからのみ発生します。損失がすべてのトークンで計算される典型的な事前学習シナリオでは、モデルは出力生成と並行してプロンプト構造やタスクタグを再現することを学習し、学習信号がシーケンス全体に希釈されます。

対照的に、損失マスキングでは、モデルはフォワードパス中に自己注意メカニズムを通じて入力と出力の接続を処理し続けます。しかし、重要な学習プロセス(逆伝播)は、出力トークンを予測する際にのみ発生します。これは、人間が新しい言語を学ぶ方法に例えることができます。私たちは完全な入力をコンテキストとして受け取りますが、学習は入力文自体ではなく、翻訳が修正されたときに起こります。この方法により、モデルにプロンプトを予測ターゲットではなくコンテキストとして扱うことを強制することで、学習を入力と出力のマッピングに向けさせ、プロンプトのフォーマットへの過学習の傾向を低減します。

学習性能への影響

これらの発見を検証するため、研究者らは複雑な文の並べ替えタスクでモデルを学習させる実験を行い、マスクされた損失とマスクされていない損失を比較しました。このタスクは、文法的に一貫性のない文を同じ単語を使って一貫性のある形式に変換するものでした。例えば、「The equations expensive. show is optimization computationally that.」を「The equations show that optimization is computationally expensive.」に修正するものです。結果は、入力プロンプトに対する損失が計算されない場合、モデルがタスクで著しく速く収束することを示しました。これらの効率向上は非常に大きく、学習実行全体を通して複合的に作用し、収束の加速につながります。

マスキングのトレードオフ

損失計算のためにプロンプトトークンをマスキングすることは、計算量を節約し、焦点を明確にする一方で、トレードオフも存在します。学習信号からプロンプトを除外すると、推論中にプロンプトの構造や表現が変わった場合に、モデルがうまく適応できないリスクが高まります。しかし、このようなトレードオフは、リソース制約の現実と照らし合わせて検討されるべきです。低リソースの学習シナリオでは、コアタスクの性能を維持しつつ計算量を削減するアプローチは、完全教師ありの、リソース集約的な代替案よりも実用的であることが多いです。

アフリカ固有言語LLMの意義

アフリカのLLMコミュニティの多くがオープンソースの事前学習済みモデルの適応に焦点を当ててきた一方で、SabiYarnで行われたように、基盤モデルをゼロから学習させることは明確な利点を提供します。このアプローチにより、欧米のコーパスに埋め込まれた文化的バイアスを受け継がないモデルを作成できます。さらに、特にアフリカ言語のトークン化、転移学習、言語パターン、学習ダイナミクスに関する貴重な研究洞察とデータを提供します。

しばしば見落とされがちな側面は、言語がLLM処理のためにどのようにトークンに分割されるかを決定するトークナイザーです。カスタムの言語固有のトークナイザーを学習させることで、ヨルバ語の声調記号のように意味を帯びる独自の形態学的・音韻的構造を統合できます。これにより効率も向上します。なぜなら、トークナイザーは各言語を有益な文法構造(接辞や句読点など)を認識するトークンに効果的に分解でき、モデルはそれを意味のある表現に活用できるからです。対照的に、対象言語で学習されていない既存のトークナイザーを使用すると、多くの場合、トークン化が不十分になり、文法表現が不正確になり、シーケンス長が膨らみ、最終的には特に計算要件の低い小規模モデルで性能が低下します。

今後、SabiYarn研究グループは、リソース制約のある事前学習の枠内で、推論、指示追従、テスト時計算戦略を組み込んだ最新のLLMアーキテクチャを探求する予定です。彼らの将来の作業には、学習と推論のためのハードウェア固有の最適化、そしてさらに幅広いアフリカ言語を含めるための取り組みの拡大も含まれます。

SabiYarn:単一GPUで低リソース言語LLMを効率学習 - OmegaNext AIニュース