KI, Meta, Microsoft, Künstliche Intelligenz, Vall-e, Stimme, menschliche Stimme

VALL-E: Diese KI imitiert menschliche Stimmen nach nur drei Sekunden

Felix Baumann
Adobe Stock/ Vectoro

Anzeige

Microsoft hat eine neue Künstliche Intelligenz (KI) namens VALL-E entwickelt, die menschliche Stimmen imitieren kann. Eine drei Sekunden lange Sprachprobe reicht dafür offenbar bereits aus.

Künstliche Intelligenz und KI-Tools spielen eine immer größere Rolle. Den Algorithmen fehlt es dennoch oftmals an vielen menschlichen Eigenschaften – etwa dem eigenständigen Denken. So entstanden bereits historische Texte von Bären im Weltall. Dennoch zeigen Tools wie ChatGPT, was heutzutage möglich ist.

Dass die täuschend echt wirkende Kommunikation mit einer Maschine auch über Texte hinausgehen kann, zeigt nun Microsoft. Das Unternehmen stellte kürzlich ein eigenes TTS-Modell (Text-To-Speech) namens VALL-E vor. Das Gruselige daran: Es kann Menschen täuschend echt imitieren. VALL-E benötigt dafür nämlich nur drei Sekunden einer Sprachaufnahme.

UPDATE Newsletter BASIC thinking

Du willst nicht abgehängt werden, wenn es um KI, Green Tech und die Tech-Themen von Morgen geht? Über 10.000 Vordenker bekommen jeden Tag die wichtigsten News direkt in die Inbox und sichern sich ihren Vorsprung.

Nur für kurze Zeit: Anmelden und mit etwas Glück Beats-Kopfhörer gewinnen!

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung. Beim Gewinnspiel gelten die AGB.

VALL-E imitiert menschliche Stimmen

Die KI kann so jeden Menschen auf der Welt täuschend echt nachahmen. Das System basiert dabeiauf einer Technologie namens EnCodec des Technologie-Unternehmens Meta, die der US-Konzern erstmals im Oktober 2022 ankündigte. Die Künstliche Intelligenz analysiert derweil, wie eine Person spricht. Dazu nutzt sie Trainingsdaten, um andere Tonlagen zu simulieren.

Für ein natürliches Stimmbild reichen drei Sekunden einer Audioaufnahme aus. In der Theorie ließen sich so Sprachassistenten erstellen, die wie Barack Obama oder Angela Merkel klingen.

Für ein noch besseres Ergebnis sorgen Trainingsdaten der Audiobibliothek LibriLight – ebenfalls eine Schöpfung von Meta. Diese beinhaltet 60.000 Stunden Audioaufnahmen von 7.000 englischen Sprecherinnen und Sprechern.

Neues Modell birgt einige Risiken

Auch möglich sein soll die Simulation einer akustischen Umwelt zur Stimme. Nimmt das System etwa eine Stimmprobe am Telefon entgegen, so klingt das fertige Modell ebenfalls wie eine Person am Telefon. Wie sich jeder denken kann, birgt dieser Ansatz aber viele Risiken. Das sieht auch Microsoft so.

Um den Missbrauch des Modells zu verhindern, entwickelte das Unternehmen deshalb ein Erkennungsmodell, das klar sagen kann, ob eine Aufnahme von VALL-E stammt. Das soll den Umstand vorbeugen, dass Kriminelle die Technologie für Authentifizierungen oder andere Vorkommen missbrauchen. Ob das reichen wird, bleibt aber abzuwarten.

Auch interessant:

🤝 25 Euro geschenkt!

Eröffne jetzt dein kostenloses NIBC Tagesgeld und erhalte bis zu 2,75 Prozent Zinsen auf dein Geld! Und obendrauf gibt's sogar noch 25 Euro geschenkt!


Jetzt Zinsen sichern

Voraussetzungen gelten, Anzeige

STELLENANZEIGEN
Senior SAP Consultant FI/CO (f/m/div.)
Bosch Gruppe in Wetzlar
Intern (m/f/d) in Digital Marketing
Clarios Germany GmbH & Co. KG in Hannover
Vertriebsingenieur (Ingenieur Maschinenbau / ...
a2tec GmbH in Hamburg
Digital Marketing Manager (m/w/d)
Schwer Fittings GmbH in Denkingen
Personalberater (m/w/d)
Ratbacher GmbH - Karriere bei Rat... in Stuttgart, M...
Vehicle Testing Lead (m/f/d)
Clarios Germany GmbH & Co. KG in
Organizational Integration Manager (m/f/d)
Clarios Germany GmbH & Co. KG in
Sales Manager (m/w/d) Online Marketing
Sellwerk GmbH & Co. KG in Düsseldorf, Meerbusch, Kaa...
Teile diesen Artikel
Felix Baumann ist seit März 2022 Redakteur bei BASIC thinking. Bereits vorher schrieb er 4 Jahre für den Online-Blog Mobilegeeks, der 2022 in BASIC thinking aufging. Nebenher arbeitet Felix in einem IT-Unternehmen und beschäftigt sich daher nicht nur beim Schreiben mit zukunftsfähigen Technologien.