NVIDIAが欧州最大級のオープンソース音声AIデータセットとモデルを発表
Nvidiaは、多言語音声AIにおける重要な進歩を発表しました。欧州言語向けの広範なオープンソース音声データセット「Granary」と、2つの最先端モデル「Canary-1b-v2」および「Parakeet-tdt-0.6b-v3」を導入します。この包括的なリリースは、自動音声認識(ASR)と自動音声翻訳(AST)におけるアクセス可能で高品質なリソースの新たなベンチマークを確立し、特にこれまでAI開発において過小評価されてきた欧州言語に利益をもたらします。
この取り組みの中核となるのは、カーネギーメロン大学およびフォンダツィオーネ・ブルーノ・ケスラーとの共同で開発された大規模な多言語データセット「Granary」です。このコーパスは約100万時間の音声を含み、そのうち65万時間が音声認識タスクに、35万時間が音声翻訳に充てられています。Granaryは、ほぼすべてのEU公用語に加え、ロシア語とウクライナ語を含む25の欧州言語をカバーしており、クロアチア語、エストニア語、マルタ語など、アノテーションデータが限られている言語に意図的に焦点を当てています。Granaryの背後にある主要な革新は、Nvidia NeMoの音声データプロセッサを使用してラベル付けされていない公開音声データを処理する「疑似ラベリングパイプライン」です。この技術は自動的に構造を追加し、データ品質を向上させ、手作業によるアノテーションという手間とリソースを大量に消費する作業の必要性を大幅に削減します。このクリーンで高品質なデータを活用することで、Granaryは著しく高速なモデル収束を可能にし、研究では、競合するデータセットと比較して半分のGranaryデータを使用するだけで開発者が目標精度を達成できることが示されており、リソースが限られた言語や迅速なプロトタイピングにとって特に価値があることが証明されています。
Granaryデータセットを基盤として、Nvidiaは「Canary-1b-v2」を発表しました。これは、英語とその他24のサポートされている欧州言語間の高品質な文字起こしと翻訳のために設計された10億パラメータのエンコーダー・デコーダーモデルです。このモデルは、先行モデルの言語カバー範囲を2倍にし、3倍のサイズのモデルに匹敵する最先端の性能を示しながら、最大10倍高速な推論速度を実現します。Canary-1b-v2は、マルチタスク機能に優れており、ASRとASTの両方を堅牢に処理し、自動句読点、大文字化、正確な単語レベルおよびセグメントレベルのタイムスタンプ(翻訳出力についても)を備えています。FastConformerエンコーダーとTransformerデコーダーを組み合わせ、SentencePieceトークナイザーを介して統合された語彙を持つそのアーキテクチャは、ノイズの多い環境でも強力な性能を保証し、AI生成の幻覚に対する耐性も備えています。評価結果では、ASRのAMIデータセットで単語誤り率(WER)が7.15%という精度が強調されており、ASTではXから英語へのCOMETスコアが79.3、英語からXへのCOMETスコアが84.56という印象的な結果を示しています。CC BY 4.0ライセンスの下で利用可能で、Nvidia GPUアクセラレーテッドシステム向けに最適化されたCanary-1b-v2は、スケーラブルな実稼働利用のために設計されています。
Canary-1b-v2を補完するのが「Parakeet-tdt-0.6b-v3」です。これは、サポートされている25の全言語において、高スループットまたは大量の文字起こしに最適化された6億パラメータの多言語ASRモデルです。このモデルは、以前は英語に焦点を当てていたParakeetファミリーを拡張し、完全な欧州言語カバー範囲を網羅します。自動言語検出機能を備えており、明示的なプロンプトなしで入力音声を文字起こしでき、リアルタイム処理を提供し、1回の推論パスで最大24分の音声セグメントを効率的に文字起こしします。Parakeet-tdt-0.6b-v3は、低遅延、効率的なバッチ処理、正確な出力(単語レベルのタイムスタンプ、句読点、大文字化を含む)を優先し、数字や歌詞のような複雑なコンテンツや、困難な音声環境でも信頼性が高いことが証明されています。
NvidiaがGranaryデータセットとそれに付随するモデルスイートをリリースしたことは、欧州における音声AIの民主化に向けた重要な一歩となります。オープンソースで高品質なリソースを提供することで、これらのツールは開発者、研究者、企業が言語的多様性をサポートする包括的で高性能なアプリケーションを構築する力を与えます。これらの進歩は、次世代の多言語チャットボット、洗練された顧客サービス音声エージェント、およびほぼリアルタイムの翻訳サービスの拡張可能な開発への道を開き、幅広い産業でイノベーションを促進します。