NVIDIA 发布最大开源欧洲语音AI数据集与模型

Marktechpost

英伟达在多语言语音AI领域取得了显著进展,推出了 Granary,一个针对欧洲语言的庞大开源语音数据集,并同时发布了两款尖端模型:Canary-1b-v2 和 Parakeet-tdt-0.6b-v3。这项全面的发布为自动语音识别(ASR)和自动语音翻译(AST)领域可访问的高质量资源树立了新标杆,尤其惠及了在AI发展中历来代表性不足的欧洲语言。

这项倡议的核心是 Granary,一个与卡内基梅隆大学和布鲁诺·凯斯勒基金会合作开发的大规模多语言数据集。该语料库包含约一百万小时的音频,其中65万小时用于语音识别任务,35万小时用于语音翻译。Granary 涵盖25种欧洲语言,包括几乎所有欧盟官方语言,以及俄语和乌克兰语,并特别关注那些标注数据有限的语言,如克罗地亚语、爱沙尼亚语和马耳他语。Granary 背后的一个关键创新是其伪标签管道,该管道使用英伟达 NeMo 的语音数据处理器处理未标注的公共音频数据。这项技术自动添加结构并提高数据质量,显著减少了手动标注这项耗时且资源密集型工作的需求。通过利用这些干净、高质量的数据,Granary 能够实现惊人的模型收敛速度,研究表明,开发人员使用 Granary 数据量仅为竞争数据集的一半即可达到目标准确率,这对于资源受限的语言和快速原型开发尤其有价值。

在 Granary 数据集的基础上,英伟达推出了 Canary-1b-v2,一个十亿参数的编码器-解码器模型,专为英语与24种其他支持的欧洲语言之间的高质量转录和翻译而设计。该模型的语言覆盖范围是其前身的两倍,展现出与三倍大小模型相当的最先进性能,但推理速度却快达十倍。Canary-1b-v2 擅长多任务处理能力,能够稳健地处理 ASR 和 AST,并具有自动标点、大小写和精确的词级和段级时间戳功能,甚至包括翻译输出。其架构结合了 FastConformer 编码器、Transformer 解码器和通过 SentencePiece 分词器实现的统一词汇表,即使在嘈杂条件下也能确保强大的性能,并能抵抗AI生成的幻觉。评估亮点强调了其准确性,在 AMI 数据集上进行 ASR 的词错误率(WER)为7.15%,在 AST 中,X到英语的 COMET 分数高达79.3,英语到X的 COMET 分数高达84.56。Canary-1b-v2 在 CC BY 4.0 许可下可用,并针对英伟达 GPU 加速系统进行了优化,专为可扩展的生产使用而设计。

作为 Canary-1b-v2 的补充,Parakeet-tdt-0.6b-v3 是一个6亿参数的多语言 ASR 模型,针对所有25种支持语言的高吞吐量或大批量转录进行了优化。该模型扩展了此前专注于英语的 Parakeet 系列,以涵盖整个欧洲。它拥有自动语言检测功能,无需明确提示即可转录输入音频,并提供实时处理,能够在一个推理过程中高效转录长达24分钟的音频片段。Parakeet-tdt-0.6b-v3 优先考虑低延迟、高效批处理和准确输出,并附带词级时间戳、标点符号和大小写,即使处理数字或歌词等复杂内容以及在具有挑战性的音频环境中也表现可靠。

英伟达发布 Granary 数据集及其配套模型套件标志着欧洲语音AI民主化迈出了重要一步。通过提供开源、高质量的资源,这些工具赋能开发人员、研究人员和企业构建支持语言多样性的包容性高性能应用程序。这些进步为下一代多语言聊天机器人、复杂的客户服务语音代理和近实时翻译服务的可扩展开发铺平了道路,促进了各行各业的创新。