NVIDIA dévoile le plus grand ensemble de données et modèles d'IA vocale européens open-source
Nvidia a dévoilé une avancée significative dans l’IA vocale multilingue, en introduisant Granary, un vaste ensemble de données vocales open-source pour les langues européennes, aux côtés de deux modèles de pointe : Canary-1b-v2 et Parakeet-tdt-0.6b-v3. Cette publication complète établit une nouvelle référence pour des ressources accessibles et de haute qualité en reconnaissance automatique de la parole (ASR) et en traduction automatique de la parole (AST), bénéficiant particulièrement aux langues européennes qui ont été historiquement sous-représentées dans le développement de l’IA.
Au cœur de cette initiative se trouve Granary, un ensemble de données multilingue massif développé en collaboration avec l’Université Carnegie Mellon et la Fondazione Bruno Kessler. Ce corpus comprend environ un million d’heures d’audio, avec 650 000 heures dédiées aux tâches de reconnaissance vocale et 350 000 heures à la traduction vocale. Granary couvre 25 langues européennes, y compris presque toutes les langues officielles de l’UE, ainsi que le russe et l’ukrainien, avec un accent délibéré sur celles disposant de données annotées limitées, telles que le croate, l’estonien et le maltais. Une innovation clé derrière Granary est son pipeline de pseudo-étiquetage, qui traite les données audio publiques non étiquetées à l’aide du processeur de données vocales de Nvidia NeMo. Cette technique ajoute automatiquement de la structure et améliore la qualité des données, réduisant considérablement le besoin laborieux et gourmand en ressources d’annotation manuelle. En tirant parti de ces données propres et de haute qualité, Granary permet une convergence de modèle remarquablement plus rapide, des recherches indiquant que les développeurs peuvent atteindre les précisions cibles en utilisant deux fois moins de données Granary par rapport aux ensembles de données concurrents, ce qui s’avère particulièrement précieux pour les langues à ressources limitées et le prototypage rapide.
S’appuyant sur l’ensemble de données Granary, Nvidia a introduit Canary-1b-v2, un modèle encodeur-décodeur d’un milliard de paramètres conçu pour une transcription et une traduction de haute qualité entre l’anglais et 24 autres langues européennes prises en charge. Ce modèle double la couverture linguistique de son prédécesseur, démontrant des performances de pointe comparables à celles de modèles trois fois plus grands, tout en atteignant des vitesses d’inférence jusqu’à dix fois plus rapides. Canary-1b-v2 excelle dans les capacités multitâches, gérant de manière robuste à la fois l’ASR et l’AST, et dispose d’une ponctuation automatique, d’une capitalisation et d’horodatages précis au niveau du mot et du segment, même pour les sorties traduites. Son architecture, combinant un encodeur FastConformer avec un décodeur Transformer et un vocabulaire unifié via un tokenizer SentencePiece, assure de solides performances même dans des conditions bruyantes et une résilience contre les hallucinations générées par l’IA. Les évaluations soulignent sa précision, avec un taux d’erreur de mots (WER) de 7,15 % sur l’ensemble de données AMI pour l’ASR et des scores COMET impressionnants de 79,3 pour X-vers-anglais et 84,56 pour anglais-vers-X en AST. Disponible sous licence CC BY 4.0 et optimisé pour les systèmes accélérés par GPU Nvidia, Canary-1b-v2 est conçu pour une utilisation en production évolutive.
Complémentaire à Canary-1b-v2 est Parakeet-tdt-0.6b-v3, un modèle ASR multilingue de 600 millions de paramètres optimisé pour la transcription à haut débit ou à grand volume dans les 25 langues prises en charge. Ce modèle étend la famille Parakeet, auparavant axée sur l’anglais, pour englober une couverture européenne complète. Il dispose d’une détection automatique de la langue, capable de transcrire l’audio d’entrée sans nécessiter d’invites explicites, et offre un traitement en temps réel, transcrivant efficacement des segments audio allant jusqu’à 24 minutes en une seule passe d’inférence. Parakeet-tdt-0.6b-v3 privilégie la faible latence, le traitement par lots efficace et des sorties précises, complètes avec des horodatages au niveau du mot, la ponctuation et la capitalisation, se révélant fiable même avec des contenus complexes comme des chiffres ou des paroles et dans des environnements audio difficiles.
La publication par Nvidia de l’ensemble de données Granary et de sa suite de modèles associée marque une étape significative vers la démocratisation de l’IA vocale pour l’Europe. En fournissant des ressources open-source de haute qualité, ces outils permettent aux développeurs, chercheurs et entreprises de créer des applications inclusives et performantes qui soutiennent la diversité linguistique. Les avancées ouvrent la voie au développement évolutif de chatbots multilingues de nouvelle génération, d’agents vocaux sophistiqués pour le service client et de services de traduction quasi en temps réel, favorisant l’innovation dans un large éventail d’industries.