Linkes Bild: Eine Person mit Brille macht ein Selfie vor einem Spiegel in einem hellen Raum. Sie trägt ein schwarzes T-Shirt mit weisser Aufschrift und hält ein Smartphone. Rechtes Bild: Die gleiche Person steht vor einer Kulisse mit einem dramatisch beleuchteten Vulkan im Hintergrund, trägt dasselbe T-Shirt und macht

So leicht verschlägt es einen nach Mordor

Die Bilder-KI Flux wird in den höchs­ten Tönen gelobt. Ein Test zeigt: Das Lob ist ver­dient: Photo­shop wird sich warm an­zie­hen müssen. Aber per­fekt ist auch die­ses ge­ne­ra­ti­ve Mo­dell, das seine Wur­zeln im Schwarz­wald hat, nicht.

Mir wurde in letzter Zeit etliche Male von Flux vorgeschwärmt; teils privat und teils medial. Das ist eine Software, die Bilder und Videos generiert. Und falls das überhaupt noch der Erwähnung bedarf: Sie tut das mithilfe künstlicher Intelligenz.

Bemerkenswert hingegen ist, von wem die Software stammt. Das Unternehmen hinter Flux heisst Black Forest Labs und Wikipedia gibt an, die Entwicklung habe in Freiburg im Breisgau ihren Anfang genommen. Im Impressum von bfl.ai wird heute allerdings Wilmington, DE angegeben, wobei das Kürzel nicht für Deutschland, sondern für Delaware steht. Das ist ein Dämpfer für jene unter uns, die in Flux gern einen europäischen Hoffnungsträger im globalen Gerangel um die KI-Vorherrschaft sehen würden.

Preisvergleiche sind schwierig

Das hält mich nicht von einem Test ab. Flux kann auf mehreren Wegen verwendet werden. Auf der Website des Entwicklers gibt es einen Playground. Die KI ist auch über Websites von Drittanbietern wie flux-ai.io oder getimg.ai zugänglich. Die Abos sind jeweils unterschiedlich ausgestaltet, was Preisvergleiche leider erschwert¹.

Ich habe mit Flux meine übliche Testreihe durchgeführt: Die Prompts dazu findet ihr hier und die Resultate seht ihr gleich. Zuvor muss eine Spezialität von Flux gewürdigt werden.

Die Bilderzeugung ist nämlich nicht die einzige Disziplin, die die KI beherrscht. Sie kann auch bestehende Bilder anhand eines Prompts verändern. Und das habe ich als erstes ausprobiert – das Resultat seht ihr als oben als Beitragsbild.

Der Prompt dazu lautete wie folgt:

Spiegle das Bild dieses Mannes an der vertikalen Achse, sodass die Schrift auf dem T-Shirt nicht spiegelverkehrt erscheint. Transferiere ihn in eine Landschaft, die wie Mordor aussieht: Also dunkel, mit düsteren Schatten und karger Vegetation, einem Lavaspeienden Berg im Hintergrund und dunklen Wolken am Himmel. Ersetze das Handy in der Hand des Mannes durch einen Ring.

Auf der positiven Seite stellen wir folgende Dinge fest:

  • Flux hat die Kernaufgabe richtig verstanden. In der bearbeiteten Version stehe ich nicht mehr in meinem Badezimmer, sondern vor dem Schicksalsberg.
  • Der Hintergrund ist gut gelungen – um Welten besser, als was ich aus Cocreator in Microsoft Paint herausleiern konnte, wo ich letzten Oktober ein ähnliches Experiment mit dem gleichen Bild unternommen habe.
  • Die KI hat eine ausgezeichnete Arbeit geleistet, meine beiden Ellbogen, die auf dem Foto nicht sichtbar sind, zu rekonstruieren. Nicht einmal ich als Besitzer dieser Ellbogen käme auf die Idee, dass sie künstlich generiert sind.

In einer Detailkritik haben wir indes diverse Unstimmigkeiten zu bemängeln:

  • Den Wunsch, mein Bild zu spiegeln, hat die KI ignoriert.
  • Das Handy ist zwar aus meiner Hand verschwunden, aber der geforderte Ring wurde nicht hinzugefügt.
  • Und natürlich passt die Lichtstimmung des eingefügten Motivs überhaupt nicht zu der düsteren Landschaft.

Das erste Problem liesse sich beheben, indem wir die Spiegelung selbst vornehmen. Den Ring und die Lichtstimmung bekämen wir vielleicht hin, wenn wir den Prompt konkreter und mit mehr Details ausgestalten würden. (Da ich meine Gratis-Credits aufgebraucht habe, kann ich das vorerst leider nicht ausprobieren.) Falls möglich, würde ich aber beim Ausgangsbild und ein neues Selfie aufnehmen, das besser zum gewünschten Endresultat passt.

Eine direkte Herausforderung für Photoshop

Trotzdem muss ich das Offensichtliche hier festhalten: Das ist ein epochaler Meilenstein in der Fotografie-Postproduktion. Die gleiche Arbeit in Photoshop würde auf herkömmliche Weise einen erfahrenen Anwender eine halbe Stunde beschäftigen. Ein wenig erfahrener Anwender hätte keine Chance. Das ist eine Zeitenwende in der Bildbearbeitung.


Hier abschliessend wie versprochen die Bilder zu meinen vier Standardtests, die ihr mit den Resultaten anderer generativer Bilder-KIs vergleichen könnt. Ich sortiere die Kreationen aufsteigend nach meiner Benotung.

4) Der träumende Androide

Der träumende Android: Note mangelhaft.

Ein schwieriges Motiv, zugegeben. Der Stil wäre für ein Kinderbuch passend. Da es sich bei der Aufgabe um eine Anspielung an das Buch Do Androids Dream of Electric Sheep? von Philip K. Dick handelt, wäre eine etwas «erwachsenere» Darstellung auch okay. Speziell kritisiere ich allerdings, dass der Android nicht schläft und damit nicht träumt und zwei Schafe aus der Traumblase ausgebrochen sind. Ausserdem ist nicht erkennbar, dass es sich um elektrische Schafe handeln müsste.

3) Das Schweiz-Diorama

Das Schweiz-Diorama: Note genügend.

Die Umsetzung gefällt mir gut; wie sich Matterhorn, Bundeshaus und Kapellbrücke ineinanderfügen, ist sogar ausgezeichnet. Minuspunkte gibt es, weil das Bundeshaus nicht aus Schokolade besteht – und weil es nicht als Bundeshaus zu erkennen ist.

2) Die Frau mit Hasenohren und Fuchsschwanz

Schimäre: Note gut.

Bei dieser Umsetzung sitzen sowohl die Ohren als auch der Fuchsschwanz. Der Stil ist dem märchenhaften Motiv angemessen und die Darstellung ist nicht übersexualisiert, wie das sonst oft der Fall ist.

Bei diesem Motiv zeigt Flux, dass die Vorschusslorbeeren nicht unverdient sind: Das ist das beste Resultat, das ich zu diesem Prompt bislang erhalten habe. Es gibt dennoch nur die Note gut, weil ich schade finde, dass oben die Ohren und unten die Haarspitzen angeschnitten sind.

1) Die Punk-Familie in Paris

Punk-Familie in Paris: Note ausgezeichnet.

Bei diesem Motiv wird Flux selbst hohen Erwartungen gerecht: Alle drei Familienmitglieder erscheinen so, wie beschrieben, und an der Pose vor dem Eiffelturm gibt es nichts zu mäkeln. Erster Kritikpunkt: Der Papa könnte noch etwas wilder, bzw. weniger gepflegt aussehen, insbesondere, was Bart und Frisur angeht.

Zweiter Kritikpunkt: Die Beleuchtung am Turm und bei der Strassenlaterne deutet auf Nacht hin, der Rest der Szene findet bei Tageslicht statt. Und natürlich würden wir uns für ein Ferienbild einen blauen Himmel wünschen. Auch diese Mankos liessen sich womöglich durch eine explizitere Formulierung des Prompts beseitigen.

Trotzdem: Flux überzeugt. Und positiv zu erwähnen ist das unglaubliche Tempo, mit denen diese vier Bilder erstellt worden sind.

Fussnoten

1) Bei Flux-ai kostet das günstigste Abo zehn Dollar pro Monat, wofür es 5000 Credits gibt. Da je nach Aufgabe eine unterschiedliche Zahl von Credits benötigt werden, kann ich nicht allgemeingültig sagen, wie weit das reicht. Für den Test gibt es 40 Credits gratis, die für vier Bilder mit dem Modell Flux.1 schnell gereicht haben. Für Videoexperimente sind mindestens 100 Credits pro Versuch einzurechnen, sodass wir mit dem Gratis-Account leider keinen Versuch unternehmen können. Bei getimg.ai zahlen wir mindestens acht Franken pro Monat für 3000 monatliche Credits. 

Kommentar verfassen