NVIDIA enthüllt größtes Open-Source-Sprach-KI-Datensatz & Modelle für Europa
Nvidia hat einen bedeutenden Fortschritt in der mehrsprachigen Sprach-KI enthüllt und Granary vorgestellt, einen umfangreichen Open-Source-Sprachdatensatz für europäische Sprachen, zusammen mit zwei hochmodernen Modellen: Canary-1b-v2 und Parakeet-tdt-0.6b-v3. Diese umfassende Veröffentlichung setzt einen neuen Maßstab für zugängliche, hochwertige Ressourcen in der automatischen Spracherkennung (ASR) und der automatischen Sprachübersetzung (AST), was insbesondere europäischen Sprachen zugutekommt, die in der KI-Entwicklung historisch unterrepräsentiert waren.
Das Herzstück dieser Initiative ist Granary, ein massiver mehrsprachiger Datensatz, der in Zusammenarbeit mit der Carnegie Mellon University und der Fondazione Bruno Kessler entwickelt wurde. Dieses Korpus umfasst etwa eine Million Stunden Audio, davon 650.000 Stunden für Spracherkennungsaufgaben und 350.000 Stunden für Sprachübersetzung. Granary deckt 25 europäische Sprachen ab, darunter fast alle offiziellen EU-Sprachen sowie Russisch und Ukrainisch, mit einem gezielten Fokus auf Sprachen mit begrenzten annotierten Daten, wie Kroatisch, Estnisch und Maltesisch. Eine Schlüsselinnovation hinter Granary ist seine Pseudo-Labeling-Pipeline, die ungelabelte öffentliche Audiodaten mithilfe des Nvidia NeMo Speech Data Processor verarbeitet. Diese Technik fügt automatisch Struktur hinzu und verbessert die Datenqualität, wodurch der aufwendige und ressourcenintensive Bedarf an manueller Annotation erheblich reduziert wird. Durch die Nutzung dieser sauberen, hochwertigen Daten ermöglicht Granary eine bemerkenswert schnellere Modellkonvergenz. Forschungsergebnisse deuten darauf hin, dass Entwickler Zielgenauigkeiten mit der Hälfte der Granary-Daten im Vergleich zu konkurrierenden Datensätzen erreichen können, was besonders wertvoll für ressourcenbeschränkte Sprachen und schnelles Prototyping ist.
Aufbauend auf dem Granary-Datensatz hat Nvidia Canary-1b-v2 vorgestellt, ein Encoder-Decoder-Modell mit einer Milliarde Parametern, das für hochwertige Transkription und Übersetzung zwischen Englisch und 24 anderen unterstützten europäischen Sprachen entwickelt wurde. Dieses Modell verdoppelt die Sprachabdeckung seines Vorgängers und demonstriert eine hochmoderne Leistung, die mit Modellen vergleichbar ist, die dreimal so groß sind, dabei aber bis zu zehnmal schnellere Inferenzgeschwindigkeiten erzielt. Canary-1b-v2 zeichnet sich durch Multitasking-Fähigkeiten aus, indem es sowohl ASR als auch AST robust handhabt und automatische Interpunktion, Großschreibung sowie präzise Wort- und Segment-Zeitstempel bietet, selbst für übersetzte Ausgaben. Seine Architektur, die einen FastConformer-Encoder mit einem Transformer-Decoder und einem vereinheitlichten Vokabular über einen SentencePiece-Tokenisierer kombiniert, gewährleistet auch unter rauschigen Bedingungen eine starke Leistung und Widerstandsfähigkeit gegen KI-generierte Halluzinationen. Evaluierungsergebnisse unterstreichen seine Genauigkeit mit einer Wortfehlerrate (WER) von 7,15 % auf dem AMI-Datensatz für ASR und beeindruckenden COMET-Scores von 79,3 für X-to-Englisch und 84,56 für Englisch-to-X in AST. Canary-1b-v2 ist unter einer CC BY 4.0-Lizenz verfügbar und für Nvidia GPU-beschleunigte Systeme optimiert, was es für den skalierbaren Produktionseinsatz konzipiert.
Ergänzend zu Canary-1b-v2 ist Parakeet-tdt-0.6b-v3, ein mehrsprachiges ASR-Modell mit 600 Millionen Parametern, das für hochdurchsatzstarke oder großvolumige Transkriptionen in allen 25 unterstützten Sprachen optimiert ist. Dieses Modell erweitert die Parakeet-Familie, die zuvor auf Englisch fokussiert war, um eine vollständige europäische Abdeckung zu umfassen. Es verfügt über eine automatische Spracherkennung, die in der Lage ist, Eingabeaudio ohne explizite Aufforderungen zu transkribieren, und bietet Echtzeitverarbeitung, indem es bis zu 24-minütige Audiosegmente in einem einzigen Inferenzdurchlauf effizient transkribiert. Parakeet-tdt-0.6b-v3 priorisiert niedrige Latenz, effiziente Stapelverarbeitung und genaue Ausgaben, komplett mit Wort-Zeitstempeln, Interpunktion und Großschreibung, was sich auch bei komplexen Inhalten wie Zahlen oder Liedtexten und in anspruchsvollen Audio-Umgebungen als zuverlässig erweist.
Nvidias Veröffentlichung des Granary-Datensatzes und der dazugehörigen Modellsuite markiert einen bedeutenden Schritt zur Demokratisierung der Sprach-KI für Europa. Durch die Bereitstellung von Open-Source- und qualitativ hochwertigen Ressourcen ermöglichen diese Tools Entwicklern, Forschern und Unternehmen, inklusive und leistungsstarke Anwendungen zu erstellen, die die sprachliche Vielfalt unterstützen. Die Fortschritte ebnen den Weg für die skalierbare Entwicklung von mehrsprachigen Chatbots der nächsten Generation, hochentwickelten Kundendienst-Sprachagenten und nahezu Echtzeit-Übersetzungsdiensten, wodurch Innovationen in einer Vielzahl von Branchen gefördert werden.