Hey KI, produzier schnell einen Spielfilm für mich!

Bei runwayml.com werden anhand von Text­be­schrei­bungen Video­se­quen­zen erzeugt. Lässt sich so am Schreib­tisch ein oscar­wür­diges Meister­werk her­stel­len? Ich habe es aus­pro­biert.

Runway ist einer der vielen Mitspieler im KI-Business, ein «Forschungsunternehmen, das die nächste Ära von Kunst, Unterhaltung und menschlicher Kreativität gestalten» will, wie es auf der Homepage runwayml.com heisst. Nicht gerade ein bescheidenes Ziel – sodass wir uns natürlich fragen, welches Ass dieses Forschungsunternehmen denn im Ärmel hat.

Nun, es sind mehr als zwei Dutzend aus den Bereichen Video, Bild, 3D und Audio: also quasi ein Rundumschlag im Multimediabereich. Runway hat mit der Audio-Transkription und einem Text-zu-Bild-Generator zwei Module im Portfolio, die ich zu den «Klassikern» der KI zählen würde – die Anführungszeichen rühren daher, dass es etwas albern ist, zu Beginn der KI-Revolution bereits von Klassikern zu sprechen. Aber egal.

Runway hat noch weitere Module parat, die wir von anderswo kennen: Das Erhöhen der Auflösung (Upscale image) und das Einfärben von Schwarzweiss-Aufnahmen (Add Color). Und im Audiobereich kann sie Aufnahmen von Störgeräuschen befreien.

Eine Video-Wundertüte

Kommen wir nun aber zu den Features, die wir so noch nicht gesehen haben: Wir können dreidimensionale Texturen erzeugen, aus einem Bild ein anderes Bild in einem neuen Stil ableiten (Image to Image), ein Bild in alle Richtungen erweitern (Expand Image), bei einer Sequenz Zwischenbilder interpolieren (Frame Interpolation), den Hintergrund verändern (Backdrop Remix) und ein Bild variieren (Image Variation). Besonders interessant finde ich die Module aus dem Videobereich:

  • Text to Video erzeugt ein Video anhand einer Beschreibung.
  • Inpainting lässt uns Dinge aus einem Video entfernen: Wir löschen in einem Frame einen Bereich, der automatisch stimmig ersetzt wird, und zwar innerhalb der ganzen Sequenz.
  • Scene Detection teilt eine Aufnahme in einzelne Clips auf.
  • Blur Faces macht Gesichter unkenntlich.
  • Super Slow Motion bewirkt, dass eine verlangsamte Aufnahme dennoch flüssig wirkt.
  • Depth of Field passt die Schärfentiefe in einem Video an.

So gerne ich das alles testen würde, es würde den Rahmen meines Blogposts sprengen. Darum konzentriere ich mich erst einmal auf Text to Video. Nach etwas tüfteln stelle ich fest, dass das Versprechen etwas hochgegriffen ist: Das Video wird nicht aus dem Nichts erzeugt, wie ich mir das vorgestellt habe – und schon gar nicht ist es so, dass es möglich wäre, einen ganzen Ablauf mit mehreren Einstellungen zu generieren, wie ich das im ersten Anlauf versucht habe.

Ein Dinosaurier muss her!

Schaffen wir es, diesen Baum hier schwanken zu lassen und von einem Dinosaurier zu besiedeln?

Es ist vielmehr so, dass ein statisches Bild mit Bewegung ausgestattet wird. Ich wage einen Testlauf mit einer Landschaftsaufnahme, dass die ich am Eschenberg gemacht habe.

Und das war meine Anforderung: Der grosse Baum schwankt im Wind: Von rechts fliegt eine grosse Kreatur ins Bild, bei der es sich um einen Dinosaurier handeln könnte und die einen grossen Schatten auf den Wald wirft. Die Kreatur dreht eine Runde um den Baum, um sich darauf niederzulassen.

Wenn das funktionieren würde, wäre das unglaublich grossartig. Aber nein, leider waren meine Anforderungen noch immer zu hoch: Die Software generiert eine Waldlandschaft, die meiner etwas ähnelt. Von einem Dinosaurier ist nichts zu sehen.

Wo ist mein Dinosaurier?

Es gibt aber eine sanfte Kamerafahrt von rechts nach links. Und wir fühlen uns etwas ernüchtert: Die Software ist nicht dazu da, uns zu ermöglichen, aus ein paar simplen Beschreibungen Szene für Szene ganze Spielfilme zu generieren – und zwar ohne, dass wir Schauspieler engagieren, Kulissen, Scheinwerfer und Kameras aufstellen, Schauspieler engagieren und überhaupt von unserem Schreibtisch aufstehen müssten. Das ist einerseits schade – andererseits wäre das, würde es funktionieren, eine so grosse Revolution, dass wir davon sicherlich schon in der Zeitung gelesen hätten.

Vielleicht hätte ich mir besser erst das Tutorial-Video angeschaut?

Aber wir lernen auch etwas: Wir hätten uns zuerst das Einleitungs-Video ansehen sollen:

Wir lernen, dass ein sinnvoller Prompt wie folgt lauten könnte:

Eine Palme an einem tropischen Strand im Stil professioneller Filmkunst, geringe Tiefenschärfe, Spielfilm.

Wir können anstelle des Kinofilm-Looks auch 2-D-Animation oder einen anderen Stil vorgeben. Was entsteht, ist keine Videosequenz im eigentlichen Sinn – zumindest nicht, wenn wir uns darunter Szenen mit einer gewissen Handlung vorstellen. Was entsteht, sind künstliche Live Photos: Das ist jenes Mittelding zwischen Standbild und Video, das Apple Ende 2014 angekündigt hat.

Vorgabe: «Der Marktplatz in einem mittelalterlichen Städtchen mit einer Holzbank im Vordergrund und beflaggten Häusern, im Stil professioneller Filmkunst, geringe Tiefenschärfe, Spielfilm.»

Fazit: Wichtig ist die richtige Erwartungshaltung. Denn auch wenn Runway uns nicht helfen wird, ganze Spielfilme zusammenzupuzzeln, kann diese Software ein Video enorm aufwerten – nämlich immer dann, wenn wir Schnittbilder bräuchten, die wir gerade nicht zur Hand haben. Dann mussten wir uns bisher mit Standbildern behelfen, was oft unbefriedigend ist. Nun gibt es Videomaterial, das eine gewisse Bewegung erkennen lässt und sich darum (vielleicht) besser in eine Produktion einfügt. Auch ein hervorragendes Einsatzgebiet sind Hintergründe, die sich bei der Arbeit mit Green Screen benutzen liessen. Das hat auf alle Fälle kreatives Potenzial.

Karpi, seines Zeichens notorisches KI-Spielkind, hat besser verstanden, was sich mit dieser Anwendung anstellen lässt und mit seinem fiktiven Heidi-Trailer einen viralen Hit gelandet.

Zum Ausprobieren dürfen wir einige Sekunden Film kostenlos erzeugen; allerdings wird das Resultat mit einem Wasserzeichen versehen. Wenn wir die Software ernsthaft benutzen wollen, brauchen wir ein Abo. Dafür bezahlen wir zwölf US-Dollar pro Monat für den Standard-Preisplan und 28 Dollar für die Pro-Variante. Diese Credits sind auch für die anderen Module einsetzbar.

Beitragsbild: Jungs, ihr seid bald arbeitslos (Gordon Cowie, Unsplash-Lizenz).

Kommentar verfassen