Diese KI glaubt, moderieren zu können

Auf D-ID.com stehen Avatare bereit, die Texte in die Kamera sprechen oder zu vor­han­denen Audio­auf­nah­men die Lippen bewegen. Stellt sich die Frage: Will man diesen Socken­pup­pen über­haupt zu­hö­ren?

Ich würde sie digitale Sockenpuppen nennen: Das sind Porträts, die mittels digitaler Tricks in «talking heads» verwandelt werden: Also Köpfe, die sprechen oder singen können.

Von der Existenz dieser Technik haben viele von uns 2021 durch die Wombo-App erfahren: Sie nimmt ein simples Foto und macht daraus ein Musik-Video. Mittels Deepfake-Technik werden Mimik und Kopfbewegungen so angepasst, dass es aussieht, als ob die Person auf dem Bild voller Inbrunst mitsingen würde.

«Keiner hat es gemerkt»

Und ja, das ist genau einmal lustig. Trotzdem war die App ein Sommerhit. Aber lässt sich aus der Technik mehr anfangen als seichter Social-Media-Schabernack? Neulich konnte man von einem Avatar namens Jade lesen, der auf dem westschweizer Fernsehsender «M Le Média» das Wetter präsentiert. Und auch wenn die «Aargauer Zeitung» behauptet, niemand habe es gemerkt, dann spricht das nicht unbedingt für die Authentizität des Avatars, sondern eher für die mangelnde Aufmerksamkeit der Zuschauerschaft.

Bei «Heise» habe ich vor einiger Zeit von einem Film erfahren, der mittels künstlicher Intelligenz erzeugt worden ist. «Magisch und verstörend», nannte ihn den Autor. Ich fand ihn hölzern und wenig packend; und ich bin im Uncanny Valley stecken geblieben. Sprich: Ich habe darauf geachtet, was mir alles nicht überzeugend erscheint und wo die technischen Unstimmigkeiten die Illusion des Films unterlaufen.

Trotzdem fand ich es spannend zu lesen, wie der Film entstanden ist. Demnach haben die Filmemacher Dall-e 2 für die einzelnen Einstellungen verwendet. Dieser Bildgerator erzeugt aber bekanntlich nur statische Bilder, keine Animationen. Für die Bewegung innerhalb einer Szene kam D-ID zum Einsatz.

Ein Avatar sorgt für den «human touch»

D-ID generiert einen Avatar, der die Antworten von ChatGPT zum Besten gibt.

Also, eine gute Gelegenheit, sich dieses Werkzeug näher anzusehen. Auf der Website d-id.com gibt es zwei Produkte: Unter chat.d-id.com wird ChatGPT in einen Videochat verwandelt. Die Antworten werden von einem «talking head» gesprochen, was der Sache einen «human touch» verleihen soll, wie der Betreiber behauptet. Unter studio.d-id.com gibt es die Möglichkeit, einen Text von einem digitalen Moderator in die Kamera sprechen zu lassen.

Das funktioniert so:

Wir wählen als Erstes die Person aus, die unseren Text sprechen soll. Dazu können wir aus Fotos von echten Menschen auswählen oder aber mit der Option Generate AI presenter operieren: Anhand der Beschreibung erzeugt die Software eine Person, die unseren Vorstellungen mehr oder weniger nahekommt.

Anscheinend nicht möglich ist es, ein Foto hochzuladen, das dann animiert wird. Das schmälert den Nutzen beträchtlich – aber es mindert auch das Missbrauchspotenzial. Denn sonst wäre es natürlich möglich, einem beliebigen Menschen jedwelchen Text in den Mund zu legen.

Ein paar Klicks und fertig ist das Moderationsvideo

Haben wir den Moderator oder die Moderatorin ausgewählt, tippen ins Fenster rechts den Text. Dann geben wir an, in welcher Sprache der Text vorliegt und wählen die Stimme – denn die wird mit dem Aussehen des Moderators nicht automatisch vorgegeben. Je nach Avatar haben wir auch eine Style-Option zur Auswahl. Diese umfasst bei Jenny etwa Assistent, Chat, Kundendienst oder Nachrichtensprecher. Für meine Zwecke, nämlich eine dramatische Lesung von Babette von Interlaken passt keine dieser Auswahlmöglichkeiten – was mich aber nicht von einem Versuch abhält.

Eine der virtuellen Moderatorinnen auf d-id.com.

Wir haben auch die Möglichkeit, anstelle eines Videos eine eigene Audio-Aufnahme des gesprochenen Textes hochzuladen. Das bedeutet, dass sich D-ID wunderbar mit resemble.ai (siehe Romeo und Julia, durch die KI-Mangel gedreht) kombinieren lässt. Oder aber, wir verwenden eine Passage, die von einem echten Menschen eingesprochen wurde – von wegen «Human Touch».

Das wars schon: Ein Klick auf Generate Video erzeugt das Endprodukt, das sich sogleich herunterladen lässt.

Ich habe das ausprobiert und für meinen Test id.com einen kurzen Text einsprechen lassen. Die ersten beiden «Takes» wurden anhand einer schriftlichen Vorlage generiert. Der dritte Take basiert auf einer Audio-Aufnahme und wurde von mir selbst eingelesen. Man beachte, dass der Text in Züritütsch (Schweizer Mundart) abgefasst ist und entsprechend eine Extra-Herausforderung für die Software darstellt. Falls nachfolgend das Video nicht erscheint: es ist hier zu finden.

Zum Abschalten!

Was mich angeht, überzeugt mich das Resultat nicht. Vielleicht sieht die «Generation Videogame» das anders, aber ich habe den Eindruck, als ob die Zähne im Mund der Sockenpuppe eine Art Eigenleben führen würden.
Ausserdem sehe ich irritierende Artefakte, die mich – selbst wenn ich nichts über die Entstehungsgeschichte des Videos wissen würde – sofort an der Echtheit würden zweifeln lassen. Ganz abgesehen davon, dass die Kopfbewegungen hölzern und künstlich wirken und sich ständig wiederholen. Die Avatare, die von Haus weniger fotorealistisch aussehen, wirken in ihrer Performance schlüssiger als diejenigen, die möglichst «echt» erscheinen sollen.

Fazit: Ich sehe keinen vernünftigen Einsatzbereich dieser Sockenpuppen. Ich würde nicht mit ihnen chatten wollen und ich würde mir keine Filme oder Präsentationen von ihnen ansehen. Sie sind für mich kein valabler Ersatz für menschliche Moderatoren, Schauspieler und Sprecher. Für meinen Geschmack bringt es auch nichts, mit dieser Technik Interaktionen mit einem Kundendienst menschlicher gestalten zu wollen. Die Technik ist schlicht noch nicht da, wo sie sein müsste, um glaubwürdig zu sein. Ausserdem, wenn schon, müsste es uns die Software erlauben, den Hintergrund und die Kulissen auszuwählen, die Sockenpuppen einzukleiden und die Anmutung der Videos unseren Bedürfnissen anzupassen.

Entsprechend finde ich auch die Preise zu teuer: Das Lite-Abo kostet sechs US-Dollar pro Monat und erlaubt Moderationen in der Länge von zehn Minuten, gibt aber nur die «Standard Presenters» zur Auswahl. 15 Minuten kosten bereits fünfzig US-Dollar. Hier sind auch die «Premium Presenters» inbegriffen. Für 65 Minuten zahlen wir satte 300 Dollar pro Monat. Und für alles andere müssen wir einen individuellen Preisplan aushandeln.

Es steht aber ausser Frage, dass sich die Technologie rasant entwickelt und wir es mit solchen künstlichen Präsentatoren zu tun bekommen werden – ob wir wollen oder nicht. Und in zwei, drei Jahren könnte es so weit sein, dass wir sie tatsächlich für echt halten …

Beitragsbild: Adobe Firefly zum Prompt «a robot in a tv studio reading the news as a news anchor».

2 Kommentare zu «Diese KI glaubt, moderieren zu können»

Kommentar verfassen