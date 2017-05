Wer sich die im Computer erzeugten Ton-Beispiele anhört, hat guten Grund, sich zu erschrecken: Wir glauben zu hören, wie Barack Obama und Donald Trump lose plaudern – mit ihrem jeweils ganz typischen Zungenschlag. Die Intonation von Barack Obama und Donald Trump ist unverwechselbar und eindeutig zu erkennen. Das Problem: Es handelt sich nicht etwa um die Aufnahme eines tatsächlich stattgefundenen Gesprächs, sondern um einen komplett im Computer erzeugten Dialog. Der Rechner synthetisiert die Stimmen von Obama und Trump. Und das so täuschend echt, dass man glatt darauf hereinfällt.

Lyrebird steht erst am Anfang

Es steckt ein kanadisches Start-up namens Lyrebird dahinter. Lyrebird kann Obama und Trump mit Hilfe seiner Software nahezu jeden beliebigen Satz sprechen lassen, auf Wunsch sogar mit leicht variierter Intonation, damit das Gesprochene nicht immer exakt gleich klingt. Die Sprachausgabe wird vollständig im Computer erzeugt. Wenn man kritisch hinhört, fallen einem dann doch noch Details auf, die den Schluss zulassen, es könnte sich um eine künstliche Stimme handeln. Aber wenn man bedenkt, dass Lyrebird erst am Anfang steht, kann man sich leicht ausmalen, dass diese kleinen Hürden auch noch genommen werden.

Was wirklich erstaunlich ist: Angeblich reicht eine Minute Material mit Tonaufnahmen, um die Stimme einer Person mit der Software von Lyrebird künstlich nachzuahmen. Selbst wenn zehn Minuten Material erforderlich sein sollten, wäre das Ergebnis schon jetzt beeindruckend. Man darf davon ausgehen, dass die Technik schnell weiter entwickelt wird. Denn es gibt eine Menge Einsatzgebiete: Ich könnte mir synthetische Stimmen in Computerspielen und Webseiten vorstellen, zum Beispiel. Aber selbstverständlich eignen sich solche Technologien auch für andere Zwecke, etwa zur Manipulation. Eine Sorge, die ich auch schon bei der Präsentation der VoCo genannten Software von Adobe hatte.

Manipulation und neue Art von Fake-News

Denn wenn die Technik erst mal so weit entwickelt ist, dass man die synthetischen Stimmen nicht mehr zweifelsfrei von echten unterscheiden kann (oder nur unter erheblichem Aufwand), wird so etwas garantiert und vorhersehbar auch missbraucht. Stichwort: Fake-News. Dann werden nicht nur Texte manipuliert und Fotos, sondern auch Audios. Jeder könnte behaupten, jemand habe etwas Bestimmtes gesagt – mit Hinweis auf ein angebliches Tondokument. Dasselbe in Videos: Denn natürlich könnte man dort die Audiospur einfach austauschen.

Wir müssen also umdenken. Wir können unseren Augen nicht trauen (seit Photoshop ist alles möglich), wir sollten bei Videos skeptisch sein – und eben auch bei Audios. Denn wenn ein Start-up wie Lyrebird bereits heute derartige Ergebnisse erzielt, wieso sollten wir annehmen, dass Geheimdienste oder Regierungen, denen unbegrenzte finanzielle Mittel zur Verfügung stehen, nicht bereits deutlich bessere Ergebnisse gelingen? An dem Willen zur Manipulation kann es keinen Zweifel geben.

Man stelle sich vor, dass diese Technologie von jedem genutzt werden kann. Wie sollen die überforderten und überlasteten Kräfte, die bei Facebook und Co. Fakenews abwehren sollen, Audios auf ihren Wahrheitsgehalt überprüfen? Schwer vorstellbar, dass das nur ansatzweise gelingen kann.

Es kommen schwierige Zeiten auf uns zu.