Eine Maschine spricht mit meiner Stimme

https://blog.wdr.de/digitalistan/eine-maschine-spricht-mit-meiner-stimme/

Eine Maschine spricht mit meiner Stimme

Kommentare zum Artikel: 1

Der Leierschwanz (Englisch: Lyrebird) ist ein beeindruckendes Tier: Der talentierte Vogel kann nahezu jede Art von Geräuschen nachahmen. Auch menschliche Stimmen kann der Vogel „nachsprechen“, besser als jeder Papagei. Deshalb ist der Leierschwanz das Maskottchen einer neuen Software, die Stimmen imitieren kann. Das Startup hinter der Software heißt genauso: Lyrebird.

Leierschwanz-Vögel können Geräusche täuschend echt nachahmen; Rechte: dpa/Picture Alliance

Leierschwanz-Vögel können Geräusche täuschend echt nachahmen

Zuerst wird die eigene Stimme analysiert

Ziel der Macher ist es, dass man jeden Text mit jeder beliebigen Stimme sprechen lassen kann. Das Startup sitzt in Kanada, deshalb geht das im Augenblick nur mit englischen Texten. Dafür funktioniert es aber schon ganz gut. Jeder kann Lyrebird ausprobieren – kostenlos. Ich habe die Software (webbasiert, man muss nichts runterladen) auf meine Stimme trainiert. Dazu muss man gut zwei Dutzend Sätze vorlesen – englischsprachige Sätze. Also auf die Betonung achten! Für Muttersprachler eine einfache Sache, für mich war es ein bisschen anstrengend, weil auch Zungenbrecher darunter sind.

Doch das Ganze dauert nur ein paar Minuten. Danach kann man seine persönliche Stimme generieren – und damit dann jeden Text sprechen lassen. Den tippt man einfach ein, die Software macht den Rest. Sie erzeugt ein MP3, das man anhören, speichern, teilen kann. Das klingt nicht unbedingt perfekt, aber doch zumindest vertraut. Bedenkt man, dass es sich um ein Projekt in den Kinderschuhen handelt, ist das sogar beeindruckend. Nicht auszumalen, wie das in zwei, drei Jahren aussieht – und sich anhört.

Fake News im Audiobereich

Im Hintergrund werkelt Künstliche Intelligenz (KI). Die Software analysiert die gesprochenen Satzbeispiele und ermittelt so individuell Stimme, Aussprache und Betonung. Je mehr Sätze man einspricht, desto besser wird das Ergebnis. Natürlich kommen jetzt viele auf die Idee: Dann kann man damit ja jede Stimme imitieren! Im Grunde genommen schon. Aber da man nicht irgendwelche Sprachbeispiele zur Analyse hochladen kann, sondern Texte lesen muss, die von der Software vorgegeben werden (und auch immer andere), kann man nicht so ohne weiteres US-Präsident Donald Trump oder TV-Talkerin Ellen DeGeneres nachahmen.

Wir können das nicht. Die Macher der Software können das natürlich schon. Und machen das auch: Hier sind Beispiele von Donald Trump zu hören. Hersteller Adobe entwickelt gleichzeitig an einer Software, mit der man gesprochene Texte editieren kann. Das bedeutet: Mit Lyrebird lassen sich gesprochene Texte künstlich erzeugen, mit Adobe Voco bearbeiten.

Ergo: Man sollte besser seinen Ohren nicht mehr trauen. Denn die Technik ist da, um uns praktisch alles vorzusetzen. Noch hört man zwar kleine Ungereimtheiten, aber sicher nicht mehr lange.

 

Über den Autor

Jörg Schieb ist Internetexperte und Netzkenner der ARD. Im WDR arbeitet er trimedial: für WDR Fernsehen, WDR Hörfunk und WDR.de. In seiner Sendung "Angeklickt" in der Aktuellen Stunde berichtet er seit 20 Jahren jede Woche über Netzthemen – immer mit Leidenschaft und leicht verständlich.

1 Kommentar

  1. Tobias Claren am

    Die Beispoiele sind in Englisch, aber danach kann man auch Deutsche Sätze lesen lassen?
    Oder klingt das dann komisch?

    Adobe hat wegen „VoCo“ noch die Hosen voll.
    Trauen sich einfachn nicht es zu veröffentlichen, eiern immer weiter drumherum…
    Da reichen wohl ca. 20 beliebige Minuten um ein Profil zu erstellen.
    Also auch von Trump, Hitler, Merkel, der echten Stimme von Hawking (gibt ehl Aufnahmen von frühen Vorlesungen et.) etc..

    Was die Sätze angeht die man vorlesen muss.
    Wenn man sich die Arbeit macht Reden und Äußerungen auf diese Wörter zu durchsuchen und dann zusammenschneidet, könnte man sie der Webseite vorspielen.
    Wäre interessant ob man dann so an ein funktionierendes Profil von Trump gelangen könnte. Dennn irgendwie hat die Forma ja auch in Demoprofil von Trump angefertigt.>

    Scheinbar braucht deren Web-App eine bestimmte Ansammlung von Phonemen, und die holen sie sich schneller mit dem Vorgabetext. Auch im Glöauben so den „Missbrauch“ zu erschweren.

    Adobe VoCo scheint aber selbst Wörter zu erkennen die sie dann in Phoneme etc. zerlegen, wenn man einfach genug Material (im Schnitt 20Min) einspeist.

    Die Hoffnung bleibt immer dass ein Startup kein „image zu verlieren“ hat.
    Google sperrt seit Jahren die Gesichtssuche in den Giftschrank, max. dürfen Behörden sie evtl. dort vor Ort mal zur Suche nach Kinderschändern einsetzen, das war schon. Aber Startups mit vergleichbar guter Technik kann ihr Ruf egal sein, sie verdienen ja NUR an der einen Anwendung. Da ist Skandalisierung sogar noch nützliche Werbung…

Einen Kommentar schicken

Die mit * gekennzeichneten Felder müssen ausgefüllt werden.

Um Ihren Kommentar zu versenden, beantworten Sie bitte die folgende Frage: *

Top