NVIDIA presenta el mayor conjunto de datos y modelos de IA de voz europeos de código abierto

Nvidia ha presentado un avance significativo en la IA de voz multilingüe, introduciendo Granary, un amplio conjunto de datos de voz de código abierto para idiomas europeos, junto con dos modelos de vanguardia: Canary-1b-v2 y Parakeet-tdt-0.6b-v3. Este lanzamiento integral establece un nuevo punto de referencia para recursos accesibles y de alta calidad en el reconocimiento automático de voz (ASR) y la traducción automática de voz (AST), beneficiando particularmente a los idiomas europeos que históricamente han estado subrepresentados en el desarrollo de la IA.

El núcleo de esta iniciativa es Granary, un enorme conjunto de datos multilingüe desarrollado en colaboración con la Universidad Carnegie Mellon y la Fondazione Bruno Kessler. Este corpus abarca aproximadamente un millón de horas de audio, con 650.000 horas dedicadas a tareas de reconocimiento de voz y 350.000 horas a la traducción de voz. Granary cubre 25 idiomas europeos, incluyendo casi todos los idiomas oficiales de la UE, además del ruso y el ucraniano, con un enfoque deliberado en aquellos con datos anotados limitados, como el croata, el estonio y el maltés. Una innovación clave detrás de Granary es su pipeline de pseudoetiquetado, que procesa datos de audio públicos sin etiquetar utilizando el procesador de datos de voz de Nvidia NeMo. Esta técnica añade automáticamente estructura y mejora la calidad de los datos, reduciendo significativamente la laboriosa y costosa necesidad de anotación manual. Al aprovechar estos datos limpios y de alta calidad, Granary permite una convergencia de modelos notablemente más rápida, con investigaciones que indican que los desarrolladores pueden lograr precisiones objetivo utilizando la mitad de datos de Granary en comparación con conjuntos de datos de la competencia, lo que resulta especialmente valioso para idiomas con recursos limitados y para la creación rápida de prototipos.

Basándose en el conjunto de datos Granary, Nvidia ha introducido Canary-1b-v2, un modelo codificador-decodificador de mil millones de parámetros diseñado para la transcripción y traducción de alta calidad entre el inglés y otros 24 idiomas europeos compatibles. Este modelo duplica la cobertura lingüística de su predecesor, demostrando un rendimiento de vanguardia comparable al de modelos tres veces más grandes, pero logrando velocidades de inferencia hasta diez veces más rápidas. Canary-1b-v2 destaca por sus capacidades multitarea, manejando de forma robusta tanto ASR como AST, e incluye puntuación automática, uso de mayúsculas y marcas de tiempo precisas a nivel de palabra y segmento, incluso para las salidas traducidas. Su arquitectura, que combina un codificador FastConformer con un decodificador Transformer y un vocabulario unificado a través de un tokenizador SentencePiece, garantiza un rendimiento sólido incluso en condiciones ruidosas y resistencia contra las alucinaciones generadas por IA. Las evaluaciones destacan su precisión, con una tasa de error de palabras (WER) del 7,15% en el conjunto de datos AMI para ASR y puntuaciones COMET impresionantes de 79,3 para X-a-inglés y 84,56 para inglés-a-X en AST. Disponible bajo una licencia CC BY 4.0 y optimizado para sistemas acelerados por GPU de Nvidia, Canary-1b-v2 está diseñado para un uso de producción escalable.

Complementando a Canary-1b-v2 se encuentra Parakeet-tdt-0.6b-v3, un modelo ASR multilingüe de 600 millones de parámetros optimizado para la transcripción de alto rendimiento o gran volumen en los 25 idiomas compatibles. Este modelo expande la familia Parakeet, anteriormente centrada en el inglés, para abarcar la cobertura europea completa. Cuenta con detección automática de idiomas, capaz de transcribir audio de entrada sin requerir indicaciones explícitas, y ofrece procesamiento en tiempo real, transcribiendo eficientemente segmentos de audio de hasta 24 minutos en una sola pasada de inferencia. Parakeet-tdt-0.6b-v3 prioriza la baja latencia, el procesamiento por lotes eficiente y las salidas precisas, completas con marcas de tiempo a nivel de palabra, puntuación y uso de mayúsculas, demostrando ser fiable incluso con contenido complejo como números o letras y en entornos de audio desafiantes.

El lanzamiento de Nvidia del conjunto de datos Granary y su suite de modelos que lo acompaña marca un paso significativo hacia la democratización de la IA de voz para Europa. Al proporcionar recursos de código abierto y de alta calidad, estas herramientas empoderan a desarrolladores, investigadores y empresas para construir aplicaciones inclusivas y de alto rendimiento que apoyan la diversidad lingüística. Los avances allanan el camino para el desarrollo escalable de chatbots multilingües de próxima generación, sofisticados agentes de voz de servicio al cliente y servicios de traducción casi en tiempo real, fomentando la innovación en una amplia gama de industrias.

NVIDIA presenta el mayor conjunto de datos y modelos de IA de voz europeos de código abierto

Artículos Relacionados

Qwen-Image Edit: La IA que reta a Photoshop con edición de texto a imagen

Altman: OpenAI lanza modelos abiertos para frenar dominio chino en IA

Nvidia lanza Nemotron-Nano-9B-v2: Pequeño Modelo de IA Abierto con Control de Razonamiento