Meta kauft WaveForms: KI-Stimme für Superintelligenz

Theaiinsider

Meta Platforms hat seine aggressive Expansion in den Bereich der künstlichen Intelligenz mit der Übernahme von WaveForms fortgesetzt, einem KI-Audio-Startup, das sich auf hyperrealistische und emotional intelligente Sprachtechnologie spezialisiert hat. Die nicht offengelegte Transaktion ist Metas zweite bedeutende KI-Audio-Akquisition innerhalb eines Monats und unterstreicht einen strategischen Vorstoß zur Stärkung seiner neu gegründeten Superintelligenz-Labore.

WaveForms, erst vor acht Monaten im Dezember 2024 gegründet, machte sich schnell einen Namen im aufstrebenden KI-Sprachsektor. Das in San Francisco ansässige Startup sammelte Anfang dieses Jahres erfolgreich 40 Millionen US-Dollar an Startkapital in einer Runde, die von der bekannten Risikokapitalfirma Andreessen Horowitz angeführt wurde und das Unternehmen mit 200 Millionen US-Dollar bewertete. Im Kern zielt WaveForms darauf ab, den „Sprach-Turing-Test“ zu lösen – eine gewaltige Herausforderung in der KI, bei der ein Zuhörer nicht zwischen menschlicher Sprache und KI-generierter Stimme unterscheiden kann. Ihre Technologie konzentriert sich auf die Entwicklung von „Emotional General Intelligence“ (EGI) durch große Audio-Sprachmodelle, die in der Lage sind, subtile emotionale Nuancen in menschlicher Sprache zu interpretieren und zu replizieren. Diese hochentwickelte Fähigkeit ermöglicht nahtlosere, Echtzeit- und emotional resonante Interaktionen mit KI.

Das Startup wurde von Alexis Conneau, einem angesehenen Forscher, der zuvor zur Audioforschung bei Meta beigetragen und eine zentrale Rolle im GPT-4o Advanced Voice Mode von OpenAI spielte, und Coralie Lemaitre, einer ehemaligen Werbestrategin bei Google, mitbegründet. Sowohl Conneau als auch Lemaitre werden Metas Superintelligenz-Labore verstärken und ihr Fachwissen direkt in die ehrgeizigen KI-Initiativen des Technologiegiganten einbringen.

Diese Akquisition folgt unmittelbar auf Metas Kauf von PlayAI im Juli, einem weiteren Sprach-KI-Startup, das sich auf die Generierung menschenähnlicher Stimmen konzentriert, einschließlich mehrsprachiger Stimmklonung und Echtzeit-Sprachsynthese. Das gesamte PlayAI-Team, bestehend aus rund 35 Personen, ist zu Meta gewechselt und berichtet nun an Johan Schalkwyk, einen ehemaligen Google-Sprach-KI-Forscher, der kürzlich zum Voice Lead innerhalb der Superintelligenz-Labore ernannt wurde. Diese aufeinanderfolgenden Akquisitionen unterstreichen Metas konzertierte Anstrengungen, jegliche wahrgenommenen Lücken in seinen KI-Audiofähigkeiten zu schließen, insbesondere da das Unternehmen Berichten zufolge daran arbeitet, Echtzeit-Zwei-Wege-Sprachkonversationen in seinen KI-Chatbot zu integrieren.

Die strategische Bedeutung von WaveForms und PlayAI ist eng mit Metas übergreifender Vision der „persönlichen Superintelligenz“ verknüpft, die von CEO Mark Zuckerberg formuliert wurde. Diese Vision zielt darauf ab, KI-Systeme zu entwickeln, die nicht nur menschliche kognitive Fähigkeiten übertreffen, sondern auch tief personalisiert und für jedermann zugänglich sind, möglicherweise über Geräte wie Metas KI-Smart-Glasses. Um dies zu erreichen, hat Meta eine beispiellose Talentakquise-Offensive und einen massiven Infrastrukturausbau gestartet. Die Superintelligenz-Labore, die offiziell im Juli gestartet wurden, konsolidieren Metas Kern-KI-Teams unter der Leitung von Alexandr Wang, dem ehemaligen CEO von Scale AI, den Meta nach einer Investition von 14,3 Milliarden US-Dollar in sein Unternehmen als Chief AI Officer eingestellt hat.

Innerhalb der Superintelligenz-Labore entwickelt eine spezialisierte Einheit namens „TBD Lab“ bereits Llama 4.5, die nächste Generation von Metas Sprachmodell, mit einem Fokus auf die Verbesserung von Denk- und Agentenfähigkeiten. Meta steckt Milliarden in dieses Vorhaben, rekrutiert Top-KI-Forscher von Konkurrenten wie OpenAI, Google und Apple mit lukrativen Vergütungspaketen und baut kolossale KI-Rechenzentren, darunter den „Prometheus“-Supercluster mit über 1 Gigawatt. Diese aggressive Strategie signalisiert Metas Abkehr vom direkten Wettbewerb mit produktivitätsorientierten KI-Tools, stattdessen wird KI für Unterhaltung, soziale Verbindungen und Lifestyle-Funktionen priorisiert, während auch das Ziel verfolgt wird, den gesamten Werbe-Workflow bis 2026 zu automatisieren.

Die Übernahme von WaveForms mit seiner Pionierarbeit im Bereich der emotionalen Sprach-KI versetzt Meta in die Lage, empathischere und natürlichere KI-Interaktionen über seine vielfältigen Plattformen, von sozialen Medien bis zum Metaversum, zu schaffen, um letztendlich die Benutzerbindung zu vertiefen und die Mensch-KI-Kommunikationslandschaft neu zu definieren.