Mein gescheiterter Auftritt als digitaler Mensch

Auf hour­one.ai habe ich mir eine di­gi­ta­le Va­rian­te meiner selbst gebastelt, die nun in Videos auf­tre­ten und beliebige Texte von sich geben könnte – wenn es denn geklappt hätte. Darum vorerst keine Ver­wechs­lungs­ge­fahr mit dem Ori­gi­nal.

Vor einiger Zeit geisterte ein Video durchs Internet, bei dem ein Milliardär sich selbst, bzw. sein digitales Gegenstück interviewt. Das Bemerkenswerte an der Sache ist, dass die beiden kaum auseinanderzuhalten sind: Auch der Avatar tut so, als würde er aufmerksam zuhören. Er nickt, macht irgendetwas mit den Händen und kratzt sich zwischendurch an der Nase.

Bemerkenswert? Man könnte auch eindrücklich oder gruselig sagen. Auf Dauer sind die Gesten der KI etwas repetitiv, und auch die Ausdrucksweise wirkt etwas limitiert. Trotzdem ist das authentisch genug, dass ich nicht überrascht wäre, wenn rauskäme, dass der Milliardär den Avatar nur gespielt hat.

Nein, einen Fake will ich nicht unterstellen. Aber ich gehe davon aus, dass es mit einigem Aufwand produziert und auf Effekt getrimmt wurde. Denn der Mann im Video kann es sich leisten: Es handelt sich um Reid Hoffman, der wie erwähnt Milliardär ist. Er ist einer der Gründer bei Linkedin und Investor mit einer anscheinend meistens guten Nase.

Der digitale Avatar stammt, wie z.B. hier zu lesen ist, von Hour One. Dieses 2019 gegründete Unternehmen proklamiert unbescheiden, es beherrsche «die Kunst, virtuelle Charaktere zu erschaffen, die so real sind, dass Sie sich zweimal vergewissern müssen».

Die Avatars ab Stange

Ich beim Versuch, meinen Kopf in die Markierung zu kriegen und gleichzeitig einen Screenshot zu machen.

Aber natürlich glaube ich so eine Behauptung nicht unbesehen. Ich habe darum einige eigene Experimente mit Hour One unternommen, aber, ohne dass ich ein ähnlich eindrückliches Resultat wie Reid Hoffman hinbekommen hätte. Es ist sogar so, dass ich überhaupt kein Resultat hinbekommen habe. Aber dazu mehr weiter unten.

Hoffmans Video ist, so vermute ich, Teil der Markteinführung der sogenannten Cinematic Avatars. Die wurden am 7. Mai 2024 vorgestellt und sind auch ein Vorzeigeprojekt von Nvidia.

Ich habe nirgends die Möglichkeit gefunden, selbst einen Cinematic Avatar zu erstellen. Ich habe die Option vorgefunden, einen Avatar ab Stange zu nutzen. Den wählen wir aus einem Aufgebot aus, das nach Geschlecht, Alter und Kleidung (Business, Casual, Dress, Work) gegliedert ist. Als Umgebung stehen Studio, Mobil und Schreibtisch zur Auswahl.

Es gibt auch die Option Create your Avatar, der teils auch virtual human genannt wird. Um unser virtuelles Selbst zu erschaffen, stehen vier Optionen zur Auswahl:

  • Studio,
  • Aufnahme via App,
  • Aufnahme via Webcam und
  • Stimme (Clone your voice)

Klar, die unterscheiden sich in der Qualität des Resultats. Bei der Studio-Variante wird man in mehreren Outfits aufgenommen und das Resultat dürfte qualitativ am besten sein.

Den Avatar erstellen und zur Arbeit schicken

Ich probiere es über die iPhone-App. In der muss ich eine einzelne Selfie-Aufnahme anfertigen, auf der ich von den Hüften an aufwärts zu sehen bin. Der Avatar ist nach einer Wartezeit (bei mir um die 18 Minuten) einsatzbereit.

Um den Avatar zur Arbeit zu schicken, wählen wir eine Vorlage für unser Projekt. Dieses Template gibt den allgemeinen Look vor. Es gibt Präsentationen, bei denen der Avatar nur klein zu sehen ist; entweder in einem schmalen Bereich am Rand oder in eine Ecke eingeklinkt. Die Idee ist, dass gross ein Produktfoto, eine fotografische Aufnahme, ein Video oder vielleicht auch eine Präsentationsfolie zu sehen ist.

Für meinen Test wähle ich ein Template aus, bei der der Avatar prominent vor einem grafischen Hintergrund steht. Im Editor reihen wir nun Szene um Szene aneinander, wobei wir jeweils für jede «Einstellung» ein eigenes Layout wählen: Es gibt Grösse und Platzierung des Avatars vor. Wir bestimmen auch Einblendungen und Hintergrund.

Das Video entsteht Szene für Szene mit Text, Einstellung und Bildern.

Dem digitalen Selbst Worte in den Mund legen

Die Hauptsache an ist natürlich der Text, der der Avatar von sich gibt. Den können wir tippen, sodass er via Sprachsynthese vom Computer vorgelesen wird. Wenn wir uns für diesen Weg entscheiden, stehen uns die Standardstimmen zur Verfügung. Authentischer wäre, die eigene Stimme zu klonen. Darauf habe ich verzichtet, weil es mir an dieser Stelle vor allem um den Avatar geht.

Das Hochladen eigener Aufnahmen (eine Audiodatei pro Szene) ist auch eine Option. Den Text selbst einzusprechen, wäre für die Glaubwürdigkeit des Endprodukts der beste Weg. Wir können auch eine Sprachsynthese benutzen, die wir anderswo erstellt haben, z.B. bei Eleven­labs (Als Frau klinge ich ganz schön sexy).

Wer mag, legt Musik unters Video und ändert die Farbpalette. Und Unternehmen machen von den Branding-Optionen Gebrauch.

Der digitale Matthias kommt niemals ins Ziel

Jetzt kommen wir zur spannenden Frage: Was taugt dieses digitale Abbild meiner selbst? Wird es demnächst auf Youtube meine Blogbeiträge multimedial präsentieren?

Danach sieht es im Moment nicht aus. Alle meine Versuche, ein Video mit meinem Avatar zu erzeugen, sind gescheitert. Ich konnte mein kurzes Testvideo nicht fertig rendern und nicht einmal auf der Spielwiese (im Playground) habe ich eine Voransicht hingekommen.

Alle meine Versuche nach dem Klick auf Create Video stecken geblieben. Mehrfach blieb die Anzeige bei 25 Prozent hängen; einmal auch bei 63. Ob die Software bisher nicht den nötigen Grad an Zuverlässigkeit hat oder ob das Rendering bei den Gratisnutzern bei Auslastung gestoppt wird, lässt sich nicht sagen. Allerdings: Die Erstellung kommentarlos abzubrechen, ist unter keinen Umständen akzeptabel. Das ist ein eklatanter Mangel, der die Alltagstauglichkeit infrage stellt.

Mein Eindruck ist, dass ein Problem mit meinem Avatar oder der Software vorliegt. Ich habe eine Anfrage an den Support gestellt, bislang aber keine Antwort bekommen. Bei der Zuverlässigkeit von Hour one mache ich daher ein dickes Fragezeichen.

Theoretisch ein riesiger Zeitgewinn

Aber gehen wir davon aus, dass Hour One nicht ein kompletter Schwindel ist. Dafür spricht, dass mir die Kreation eines Videos mit einem Standard-Avatar gelungen ist. Sie war zwar nicht Ziel dieses Tests, lässt aber dennoch erahnen, wie mit der Software in der Praxis gearbeitet werden könnte.

Wenn mit der Software in der beabsichtigten Form gearbeitet werden könnte, dann würde sie einen enormen Zeitgewinn ermöglichen. Mein kurzes Testprojekt mit zwei Szenen hat mich – inklusive der Erstellung des Avatars und der Protokollierung hier fürs Blog – etwa eine Stunde gekostet.

Das ist ungeschlagen schnell: Hätte ich eine Kamera aufstellen und mich selbst vor einem Greenscreen filmen müssen, hätten schon die Vorbereitungen mehr Zeit in Anspruch genommen. Abgesehen davon ist die Arbeit mit Hour One viel entspannter, weil sich die digitale Variante seiner Selbst nicht verhaspelt und nach dem fünften Take die Nerven verliert. Und nicht zu vernachlässigen: auch die Postproduktion fällt weg.

Um Welten einfacher als ein echtes Video

Diesse Zeitersparnis macht Hour one für allerlei Projekte zu einer echten Alternative zur klassischen Produktionsweise: Erklärvideos in Unternehmen, kurze Social-Media-Clips und ähnliche Dinge lassen sich schnell, konsistent und günstig erstellen. Was den Look und die Qualität der Videos angeht, ist Hour one um Welten besser als Krikey AI; eine Lösung, die ich in vor einem Monat vorgestellt habe.

Apropos kostengünstig: Ich habe die Gratisvariante ausprobiert, bei der es 100 Video-Credits gibt, was drei Minuten Video entspricht. Die Lite-Variante für 25 US-Dollar ermöglicht 120 Minuten Video-Kreation und der Business-Plan beläuft sich auf 95 US-Dollar und 240 Minuten. Er ist nötig fürs individuelle Branding und die 3D-Vorlagen.

Was mich als potenziellen Konsumenten solcher Medien angeht, ist mir nicht wohl bei der Sache. Ich möchte nicht ständig Avatare ansehen müssen, die zwar einen perfekten Auftritt haben, aber so viel Leben ausstrahlen wie Siri an einem schlechten Tag. Als Empfänger einer Botschaft – egal, von wem sie stammt – würde ich verlangen, dass mich der Absender als Mensch behandelt. Sprich, mir auch die Achtung zuteilwerden lässt, einen echten Menschen als Überbringer einzusetzen.

Aber: Sie nerven auch schnell

Wir können schon jetzt festhalten, dass künstliche Avatare in Videos bald als ermüdend wahrgenommen werden. Darum habe ich die Hoffnung, dass die klassische Produktionsweise mit echten Charakteren auch weiterhin der Goldstandard bleiben wird. Bei den künstlichen Videos könnte die Zielgruppe hingegen denken, dass für ein «echtes» Video das Geld oder der Respekt gefehlt hat.

Weil mein Avatar nie das Licht des Internets erblickt hat, kann ich nicht beurteilen, wie viel schlechter er im Vergleich zum virtuellen Reid Hoffman ausgefallen wäre. Ich bin aber überzeugt, dass die Latte für einen überzeugenden Cinematic Avatar hoch liegt. Ein kurzes Videoselfie dürfte keinesfalls ausreichen; wahrscheinlich verbringt man ziemlich viel Zeit im Studio, bis genügend Rohmaterial vorhanden ist. Ein perfekter Deepfake lässt sich mutmasslich auch mit Hour one nicht mit einem einzigen Mausklick erstellen.

Trotzdem bleibt das Tempo der Entwicklung atemberaubend hoch. Ich habe Ende 2023 einige Methoden aufgezählt, wie wir unser digitales Ebenbild erschaffen. Die sind ein halbes Jahr komplett überholt: Statt kitschige Comicbildchen mit unserem Gesicht existieren nun digitale Avatare, die nur bei genauem Hinschauen als künstlich zu erkennen sind.

Beitragsbild: Wozu? Das geht schon längst komplett digital (Emmanuel Acua, Unsplash-Lizenz).

Kommentar verfassen