Bildern können wir nicht mehr trauen, Videos auch nicht (Vasa) und Stimmen schon gar nicht. Denn Stimmen zu imitieren, ist heute ein Klacks – und fast schon Alltag: Die Technik kommt im Film, Fernsehen und bei Podcasts zum Einsatz, sie hilft Menschen mit Sprechbehinderung, sie wird von Betrügern eingesetzt und in Werbung sei sie schon gang und gäbe.
Ich habe mit Resemble.ai experimentiert und das Resultat als übergriffig erlebt. Ein weiterer KI-Stimmenimitator ist Elevenlabs. Die klonen Stimmen, tun das aber mit grösseren Hürden als etwa Resemble: Bei diesem Prozess müssen wir nachweisen, dass wir die eigene Stimme klonen und es findet eine Überprüfung der Samples statt. Das soll Betrug verhindern und ist darum löblich – auch wenn ich fürchte, dass dieser Zug fast schon abgefahren ist.
Wegen dieser Extraschlaufe habe ich meine Stimme nicht geklont. Die Website ist dennoch spannend: Wir können die Original-Aufnahmen mit digital eingesprochenen Passagen der geklonten Stimme vergleichen. Diese direkte Gegenüberstellung zeigt einerseits, wie nah die Synthese der Realität inzwischen kommt.
Das «Uncanny Valley» bleibt
Andererseits beweist sie eben auch, dass auch Annäherung – so nah sie dem Original auch kommt – keine Perfektion bedeutet. In einem Doppelblindtest wäre es sehr schwierig, die Unterscheidung zu treffen. Aber ich bin überzeugt, dass beim längeren Zuhören die KI-Stimme ein hohles Gefühl verursachen würde. Wir erkennen das Menschliche vor allem unterbewusst. Wenn wir uns nur mit künstlich generierten Bildern, Videos, Texten und Sprachaufnahmen beschäftigen, dann erzeugt das ein Gefühl der Leere: Wie, wenn wir in einer Raumkapsel durchs All schweben würde und nur Hal 9000 als Begleiter hätten.

Aber zurück zu Elevenlabs. Die Website hält nebst dem Stimmen-Klonen auch eine Sprachsynthese bereit, die mittels Standardstimmen erzeugt wird. Wir fügen einen Text ins Feld ein, wählen die passende Stimme und drücken auf den Wiedergabeknopf. Die Aufnahme lässt sich auch herunterladen.
Die Sprachsynthese in Deutsch ist soso lala
Nebst Englisch stehen mit der Option des multilingualen Sprachmodells 29 Sprachen zur Auswahl, darunter auch Deutsch, Französisch, Italienisch, Griechisch, Schwedisch und Japanisch. In Englisch finde ich die Resultate beeindruckend; in Deutsch noch verbesserungsfähig. Hier ein Beispiel mit einem Absatz hier aus dem Blogpost:
Eine Spezialität dieser Sprachsynthese ist der Modus Speech to Speech: Bei der laden wir eine Sprachaufnahme hoch, die dann in einer anderen Stimme nachgesprochen wird. Das ist der Trick, um Stimmen wiederzubeleben, wie das bei Pumukls Stimme von Hans Clarin passiert ist: Ein echter Mensch spricht, aber mit der Stimme eines anderen. Das ist eine verblüffende Sache.
Ich als Frau? Das glaube ich mir selber nicht!
Ich habe das mit meinem Standard-Experimentierstück ausprobiert, und den Anfang meines kleinen Stücks über Babette von Interlaken, das ich im Original selbst einspreche, von «Nicole» nachsprechen lassen. Und ja, jetzt weiss ich, wie ich als Frau klingen würde.
Abgesehen davon, dass die Akustik nicht konsistent ist, finde ich das sehr überzeugend. Ich glaube nicht, dass sich eine solche Aufnahme als unecht erkennen lässt – zumindest nicht ohne viel Übung. Wohin das führen wird, können wir nur erahnen. Einen Hinweis finden wir in der Tatsache, dass Elevenlabs auch eine automatische Lösung zur Erzeugung von Synchronfassungen anbietet.
Es gibt bei Elevenlabs.io einen kostenlosen Zugang, mit dem sich rund zehn Minuten Audio pro Monat kostenlos generieren lässt. Für die ernsthafte Nutzung brauchen wir einen Preisplan. Die Erzeugung von dreissig Minuten kostet fünf US-Dollar, und mit diesem Abo ist es auch möglich, seine Stimme klonen zu lassen. Für intensivere Nutzer gibt es drei Preispläne für elf, 99 und 330 US-Dollar pro Monat. Mit der teuren Variante lassen sich verzig Stunden Audio pro Monat generieren – hier wären wir dann im Hörbuch-Bereich.
Beitragsbild: Auch in KI-Zeiten ist das für Audio-Aufnahmen noch nicht komplett überflüssig (AndNowProjekt, Pixabay-Lizenz).