Klick, klick, Video

Mit Fliki.ai ent­ste­hen Videos, ohne dass wir eine Kamera oder ein Mikro­fon auf­stel­len müss­ten: Wir puzzeln unser Werk aus vor­ge­fer­tig­ten Ele­men­ten und auto­ma­tisch ge­ne­rier­ten Clips zusam­men und lassen den Text von der KI ein­spre­chen.

Es vergeht kein Tag, an dem nicht ein neues Werkzeug das Licht des Internets erblickt, das nicht versprechen würde, mittels künstlicher Intelligenz eine Arbeit zu rationalisieren oder revolutionieren. Als Blogger bekunde ich gewisse Mühe, überhaupt hinterherzukommen. Die Kunst ist herauszufinden, welche dieser Neuerungen ich mir ansehen und besprechen soll – und welche eher nicht.

Heute habe ich mir es einfach gemacht: Ich mich vom lustigen Namen zu einer Besprechung verleiten lassen. Das Produkt, um das es geht, heisst Fliki. Das klingt lustig und ganz leicht anzüglich.

Also, Fliki. Es handelt sich um eine Software, mit der sich Videoclips erstellen lassen – und zwar aus Inhalten, die sich nicht sonderlich gut fürs audiovisuelle Medium eignen. Das sind abstrakte oder textlastige Themen und im weitesten Sinn Dinge, bei denen man nicht weiterkommt, wenn man eine Kamera in die Hand nimmt und ein Mikrofon aufstellt: Man kreiert Erklär-Filmchen oder Marketing-Clips – oder man könnte auch diesen Blogpost hier verfilmen.

Schnell, kostengünstig – und ohne vom Schreibtisch aufzustehen

Oder wir wollen möglichst kostengünstig und schnell ans Ziel kommen. Denn klassische Videoproduktionen sind aufwendig, und sie benötigen vielseitiges Know-how bei Ton, Kamera, Licht, Schnitt sowie für die Moderation und die Präsenz vor der Kamera. Das alles ist überflüssig, wenn wir nur einen Text benötigen, den wir von einer künstlichen Stimme einsprechen lassen und mit Stock-Videos und -Bildern unterlegen. Nebenbei bemerkt sind auch reine Audioproduktionen möglich.

Fliki hilft uns, einen Clip von Grund auf am Computer zu «bauen». Wir arbeiten Szene-weise: Jeder Szene liegt ein Stück Text zugrunde, das von einer künstlichen Stimme dargeboten wird. Randnotiz dazu: Es ist möglich, das Voiceover auch selbst einsprechen. Und wir dürfen eigene KI-Stimmen erstellen, um Texte hinterher mit unserer «Hausstimme» wiedergeben zu lassen.

Ein Video aus der Retorte – sogar die Clips hat die Software selbst ausgesucht.

Die Auswahl an Standard-KI-Stimmen ist eindrücklich. Es stehen mehrere Dutzend Sprachen zur Auswahl: nebst Englisch auch Deutsch, Französisch, Italienisch und Japanisch. Oder auch Zulu und Aserbaidschanisch, falls ihr gerade eine entsprechende Produktion plant.

Leni oder Jan?

Für Deutsch sind 65 Stimmen vorhanden, die wir nach Geschlecht und «Dialekt» filtern. Unter Dialekt versteht die App deutsches, schweizerisches oder österreichisches Deutsch. Wenn wir schweizerisches Deutsch auswählen, bleiben effektiv nur zwei Stimmen übrig, nämlich die von Leni und von Jan.

Wir können für jede Szene eine separate Stimme wählen und einen Dialog inszenieren, wenn das für unsere Zwecke sinnvoll ist. Die Qualität dieser Stimmen ist eindrücklich: Bei kurzen Clips würde ich mutmasslich nicht merken, dass kein echter Mensch spricht. Bei etwas längeren Aufnahmen müsste die monotone Darbietung auffallen. Der gesprochene Text wird automatisch als Untertitel eingeblendet.

Die Videospur bauen

Wozu selbst drehen, wenn man auf Stock-Material zugreifen kann?

So weit, so einfach. Für die Bildspur haben wir nun pro Szene mehrere Möglichkeiten:

  • Wir wählen einen Clip aus der Stock-Bibliothek. Zur Auswahl stehen Videos, Standbilder und animierte GIFs.
  • Wir laden ein eigenes Video hoch.
  • Wir lassen uns ein Video von der KI generieren. Dazu geben wir die Instruktionen in einem Prompt an und wählen den Stil.

Es gibt auch die Möglichkeit, auf den Knopf Auto-pick zu klicken: Dann sucht die Software etwas aus, das womöglich zum Text der Szene passt – oder mutmasslich auch nicht. Über den Knopf Add Layer fügen wir bei einer Szene Text, ein überlagerndes Bild oder eine Audiodatei als Tonspur hinzu, und über die Funktion Layout dürfen wir auch mehrere Bilder oder Videos nebeneinanderstellen.

Schliesslich gibt es die Möglichkeit, via Background Audio die ganze Produktion mit einer durchgehenden Hintergrund-Tonspur auszustatten; zum Beispiel mit einer musikalischen Untermalung.

Nicht verkehrt – zumindest für manche Zwecke

Fazit: Die Funktionsweise von Fliki ist einleuchtend. Ich habe mein Testprojekt nicht bis zum Ende durchgespielt, aber ich bin zuversichtlich, dass etwas Brauchbares entstanden wäre.

Kunst oder etwas Originelles entsteht auf diese Weise nicht. Es hängt davon ab, wie hoch man die Latte anlegt und an wen sich das fertige Video richten soll. Wenn wir einen Clip von ein paar Sekunden für die sozialen Medien produzieren möchten, dann erfüllt Fliki den Zweck. In diesem Kontext ist es auch verschmerzbar, dass die künstlichen Stimmen unpersönlich wirken.

Bei allem, was irgendwie eigenständig und authentisch wirken soll, würde ich Fliki nicht benutzen. In solchen Fällen müssen wir uns die Mühe machen, ein richtiges Video zu produzieren. Und wenn wir uns das nicht leisten können, sollten wir uns einer weniger aufwändigen Medienform zuwenden.

Die App selbst bietet sich auch für Zwecke an, für die ich sie nicht verwenden würde. Mit einem bezahlten Abo ist es möglich, über den Knopf Convert Ressourcen aus dem Netz automatisch in Videos zu verwandeln. Mit Idea to video liefern wir eine Beschreibung. Bei Blog to Video geben wir die Adresse eines Blogposts an, der dann «verfilmt» wird. Es gibt auch die Möglichkeit, ein Projekt anhand einer Präsentation (PPT to video) oder eines Tweets (Tweet to video) zu starten.

Blogposts verfilmen?

Angesichts der Blog to Video-Funktion habe ich mir zwei Sekunden lang ernsthaft überlegt, einen meiner Blogposts zu verfilmen. Aus obigen Überlegungen bin ich davon abgerückt: Für Youtube und die anderen Kanäle, wo «Personality» gefragt ist, taugt diese Methode nicht. Was ich mir vorstellen könnte, wäre eine Mischform. Wenn ich z.B. Kummerbox-Videos produzieren würde, bei denen Fragen von Zuschauerinnen und Zuschauern beantwortet werden, dann könnten diese Fragen von der KI eingesprochen werden.

Was das Abo angeht: Es kostet 21 US-Dollar (Standard) oder 66 US-Dollar pro Monat (Premium) und gibt uns 180 bzw. 600 Credits. Typischerweise wird ein Credit pro Minute Inhalt fällig, und zwar sowohl für den Ton als auch fürs Bild. Manche Aktionen kosten extra, z.B. die Erzeugung von Inhalten per KI.

Ausserdem variieren die Zusatzfunktionen: Mit dem Standard-Abo sind Videos bis 15 Minuten ausführbar. Via Premium ist die maximale Länge eine halbe Stunde, und fürs Stimmen-Klonen braucht es auch das teure Abo. Als Gratisnutzer haben wir fünf Credits fürs Testen zur Verfügung.

Beitragsbild: Es geht auch ohne diesen Typ (KlausHausmann, Pixabay-Lizenz).

Kommentar verfassen