英伟达开源工具弥合AI语言鸿沟,赋能欧洲25种语言
尽管人工智能日益渗透我们的日常生活,但其覆盖范围仍然出人意料地有限。绝大多数AI系统仅在全球7000种语言中的极少数语种内运行,导致全球数十亿人未能获得充分服务。英伟达(NVIDIA)现正着手解决这一重大的语言鸿沟,特别是在欧洲地区,通过发布一套强大的开源工具,旨在帮助开发者为25种不同的欧洲语言构建高质量的语音AI。这项举措不仅涵盖主要语种,还为克罗地亚语、爱沙尼亚语和马耳他语等常被大型科技公司忽视的语言提供了关键支持。
其总体目标是使开发者能够创建我们许多人现在习以为常的复杂语音驱动应用程序。这包括能够真正理解的多语言聊天机器人、高效的客户服务机器人以及即时弥合沟通障碍的实时翻译服务。
这项工作的核心是Granary,一个庞大的人类语音数据文库。Granary包含大约一百万小时经过精心策划的音频,旨在教授AI语音识别和翻译的复杂细微之处。为了利用这个巨大的数据集,英伟达还推出了两个为不同语言任务量身定制的新AI模型。Canary-1b-v2是一个强大的模型,针对复杂转录和翻译任务的高精度进行了优化,而Parakeet-tdt-0.6b-v3则专为处理速度至关重要的实时应用程序设计。对于那些对底层科学原理感兴趣的人,关于Granary的详细论文将于本月在荷兰举行的Interspeech会议上发表。渴望开始集成这些工具的开发者已经可以通过Hugging Face访问该数据集和这两个模型。
该项目的一个重大突破在于创建Granary海量数据所采用的创新方法。虽然AI训练众所周知需要海量数据,但传统上获取数据涉及缓慢、昂贵且往往乏味的人工标注。为了规避这些挑战,英伟达的语音AI团队与卡内基梅隆大学和布鲁诺·凯斯勒基金会的研究人员合作,开发了一个自动化数据管道。他们利用专有的NeMo工具包,成功地将原始、未标记的音频转换为高质量、结构化的数据,AI模型可以轻松从中学习。
这种自动化方法不仅仅是一项技术成就;它标志着向数字普惠迈出了实质性的一大步。这意味着里加或萨格勒布的开发者现在可以高效地构建真正理解其本地语言的语音驱动AI工具。研究团队的发现强调了Granary数据的卓越有效性,表明它只需大约一半的其他流行数据集的数据量即可达到可比的目标准确度水平。
这两个新模型的性能进一步说明了这种能力。Canary出色地提供了翻译和转录质量,可与体积是其三倍的模型相媲美,但运行速度却快十倍。另一方面,Parakeet可以轻松地一次性处理24分钟的会议录音,并自动识别所说的语言。这两个模型都足够复杂,能够处理标点符号、大小写,并提供精确的单词级时间戳——这些都是开发专业级应用程序的基本功能。
通过向全球开发者社区提供这些强大的工具及其背后的创新方法,英伟达不仅仅是发布了一款产品。该公司正在积极催生新一波创新浪潮,培育一个无论您来自何方,AI都能真正说您的语言的未来。