Der Videogenerator Sora von OpenAI im Test

Kann dank künst­licher In­tel­li­genz jeder von uns an seinem Schreib­tisch hohe Film­kunst er­schaf­fen? Oder zeigen sich beim Bewegt­bild die Mängel der KI be­son­ders deut­lich? Der Test bringt das Po­ten­zial und die Mängel ans Licht.

Vor gut zwei Jahren waren die von künstlicher Intelligenz generierten Bilder die Vorboten der KI-Revolution, die derzeit in vollem Gang ist – inklusive einer Neuauflage des Kampfs der Systeme¹.

Liegt es da nicht auf der Hand, dass sich mit dem gleichen Prinzip auch Bewegtvideo erzeugen lässt – und es nur eine Frage der Zeit ist, bis ein Hollywood-Produzent sich den ganzen Klimbim mit Regisseurinnen, Schauspieler, Kameraleuten und Filmsets sparen und seinen nächsten Blockbuster mit einem simplen Prompt erzeugen kann?

Natürlich ist es nicht ganz so einfach: Vor anderthalb Jahren habe ich mit runwayml.com experimentiert und festgestellt, dass sich damit Standbilder mit etwas Bewegung versehen lassen. Das sind keine Filmsequenzen mit einer erkennbaren Handlung, sondern vielmehr Cinemagramme. Die waren, auf herkömmlichem Weg produziert, vor gut zehn Jahren im Gefolge von Apples Live-Fotos kurz populär (siehe hier und hier). Im letzten September habe ich einen erneuten Anlauf genommen und eine Vielzahl an Videogeneratoren angeschaut, bei denen aber kein Resultat über ein Cinemagramm herausgekommen ist.

Wie weit reicht die Erzählkunst von Sora?

Das hat sich jetzt geändert. Wenigstens ein wenig: OpenAI hat im Februar 2024 einen Text-zu-Video-Generator angekündigt und Sora im letzten Dezember lanciert. Die Clips, die Sora erzeugt, sind nicht nur wenige Sekunden oder gar nur Sekundenbruchteile lang, sondern bis zu einer Minute. Es ist möglich, in einem Storyboard mehrere Szenen zu beschreiben. Auf diese Weise lässt sich zumindest eine kurze Geschichte in einem künstlich generierten Videoclip erzählen. Auch Google hat eine solche KI in Arbeit; Veo 2 soll Videos von mehreren Minuten Länge produzieren können.

Die Übersicht mit den Sora-Clips und dem Prompt unten, über den sich weitere Videos erstellen lassen.

Also, wie weit reicht die Erzählkunst von Sora?

Der Videogenerator ist in der Schweiz nicht offiziell verfügbar, aber mittels VPN² klappte mein Test einwandfrei. Als Nutzer eines Plus-Abos bei OpenAI bekomme ich ein paar Credits, die ich für die Videogenerierung verbraten habe. Die Erstellung eines Videos geht so vonstatten:

  • Wir beschreiben das Video kürzer oder ausführlicher in unserem Prompt.
  • Wir stellen Parameter zum Stil, zur Länge und zum Seitenverhältnis ein³.
  • Wir lassen das Video erstellen oder klicken auf Storyboard.

Das automatische Storyboard

Bei dieser Variante wird anhand des Prompts automatisch und wiederum per KI ein szenischer Ablauf erstellt. Das sind mehrere «Einstellungen», die separat beschrieben werden. Wir können natürlich von Hand eingreifen, aber bei meinem ersten Test habe ich mich weitgehend auf die Inputs der Software verlassen.

Für diesen Test habe ich einerseits die Prompts benutzt, die ihr aus meinen früheren Tests von Bildgeneratoren her kennt, weil damit Vergleiche zu früheren, statischen Resultaten möglich sind. Um den Besonderheiten des Films gerecht zu werden, habe ich mir eine kurze Geschichte ausgedacht, bei der eine Ameise auf ihr Velo steigt und eine Tour unternimmt, bei der sie einer Schnecke begegnet.

Das Storyboard: Hier wird der Ablauf der Szenen geplant. Die Prompts hier hat die KI aufgrund meiner allgemeinen Beschreibung selbständig erstellt.

Und das ist herausgekommen:

1) Vier Fieberträume der KI

In diesem Clip hat als erstes die Chimäre aus Mensch, Fuchs und Hase ihren Auftritt:

  1. Diese Szene finde ich sehr gelungen: eine leicht märchenhafte Inszenierung, wie sie hervorragend in einen Kinderfilm passen würde. Bisher hat keine KI die Kombination aus drei Wesen so gut hinbekommen. Die Kamerafahrt vom Fuchsschwanz auf den Kopf mit der Körperdrehung der jungen Frau ist perfekt.
  2. Die Punks in Paris sehen einzeln ganz okay aus. Zu bemängeln ist natürlich, dass Sora keine Familie hinbekommen hat, sondern nur ein Pärchen, ohne die achtjährige Tochter.
  3. Die Schweiz aus Schokolade überzeugt wenig: Die Kapellbrücke ist nicht als solche erkennbar, das Bundeshaus auch nicht und das Matterhorn fehlt ganz. Aber die Schoko-Textur und die Kamerafahrten gefallen mir.
  4. Der vierte Versuch hätte eine Verneigung vor Philip K. Dicks Roman Do Androids Dream of Electric Sheep? sein sollen. Obwohl ich hier ein ausführliches Storyboard angefertigt habe, ist der Androide überhaupt nicht zu sehen und die Schafe sehen gruselig aus. Fazit: Komplett verunglückt.

2) Die seltsame Velotour einer abenteuerlustigen Ameise

Dieses Beispiel sollte, wie oben erwähnt, eine Kurzgeschichte erzählen: Die Ameise besteigt ihr Fahrrad, fährt los und trifft auf eine Schnecke.

Das Resultat ist auf den ersten Blick eindrücklich: Die kleine Ameise, die Schnecke, die Graslandschaft – alles überzeugend. Man kann sich hervorragend ausmalen, wie aus dem, was wir hier sehen, ein Kinder-Kurzfilm oder sogar ein Kinofilm werden könnte.

Bei genauerer Betrachtung fallen viele Details auf, die nicht stimmen:

  • Beim Aufsteigen verformt sich das Hinterteil der Ameise.
  • Die Schnecke kriecht nicht über den Boden, sondern sie gleitet – und das in einem viel zu schnellen Tempo.
  • Es gibt teilweise keine Pedalen, die Füsse der Ameise drehen im Leeren. Und beim Pedalen ist teilweise nur ein Ameisenbein zu sehen und in einer Szene bewegt die Ameise ihre Beine überhaupt nicht.
  • In der vierten Szene löst sich die Schnecke in Luft auf.
  • Und am Schluss erfindet Sora einen Mann hinzu, mit dem die Schnecke einen Fistbump ausführt. Der Film endet mit dem grinsenden Mann.

Dieser Mann und der seltsame Faustgruss sind eine reine Halluzination der Software – davon stand nichts in meinem Drehbuch. Diese Wendung ist aus erzählerischer Sicht problematisch. Gut, vielleicht war es die Aufgabe der Ameise, die Schnecke zu ihrem menschlichen Freund zu führen? Will mir Sora zu verstehen geben, dass meine lahme Vorgabe das Potenzial dieser Story nicht ausschöpft?

Ein echtes Problem ist das nicht; wenn uns diese Sequenz stört, können wir sie auch einfach wegschneiden. Doch was das Ameisenabenteuer sehr deutlich vor Augen führt, ist die Tatsache, dass beim Bewegtbild sich die Fehlerquellen potenzieren:

  • Falsche oder unnatürliche Bewegungsabläufe,
  • Ereignisse, die nicht mit den physikalischen Gesetzen oder den natürlichen Gegebenheiten übereinstimmen,
  • Anschlussfehler,
  • unplausible Szenenbilder und kleine Unstimmigkeiten, die ins Uncanny Valley führen.

Kurz: Das Potenzial ist unübersehbar. Es gibt keinen Zweifel daran, dass wir in ein paar Jahren längere Filme sehen werden, die ein Teenager mit dem teuren Sora-Abo zu Hause an seinem Computer zusammengeklickt hat. Einige werden sich an den falschen Details stören, doch viele Leute werden grosszügig darüber hinwegsehen.

Gleichzeitig wird es einen Gegentrend auslösen. Wir dürfen mit einem grösseren Bedürfnis nach echter, menschengemachter Kunst rechnen. Wer weiss – vielleicht bietet das sogar die Chance auf einen Zeichentrickfilm, der wie zur Blütezeit von Walt Disney von Hand gezeichnet wird?

Fussnoten

1) Mit Deepseek fordert China die USA heraus. Genauso wie es der Chef der KI-Com­mu­nity Hugging Face, Clem Delangue, Ende 2024 voraussagte. Überrascht hat allerdings, wie schnell diese Prognose im neuen Jahr eingetroffen ist – und wie sehr dieser Coup jetzt sitzt.

2) Nach Kündigung meines NordVPN-Abos habe ich mit ProtonVPN einen Versuch gewagt; und zwar mit der Testvariante für einen US-Dolllar von Proton VPN Plus. Die wird einem angeboten, wenn man auf dieser Seite auf Get Proton VPN Free klickt. Die Gratisvariante ist für den Test leider ungeeignet, weil sie uns nicht erlaubt, einen Server in den USA zu wählen.

3) Die Konfigurationsmöglichkeiten bei Sora:

  • Presets steuern den Stil, zur Auswahl gehören Film Noir, Archival, Cardboard and Papercraft, Whimsical Stop Motion und Balloon World.
  • Seitenverhältnis: 16:9, 1:1 und 9:16, also Hochformat.
  • Auflösung: 480p, 720p und bei mir nicht verfügbar: 1080p
  • Dauer: 5 Sekunden und 10 Sekunden, plus, bei mir nicht verfügbar, 15 und 20 Sekunden
  • Wir dürfen ausserdem angeben, wie viele Varianten erzeugt werden sollen (eine, zwei oder vier).

Beitragsbild: Ein Untensil der Vergangenheit (Erik Uruci, Pexels-Lizenz)

Kommentar verfassen