Was Adobe Firefly inzwischen kann – und was nicht

Adobes generative KI hat in den letzten an­dert­halb Jahren riesige Fort­schrit­te gemacht. Doch beim Er­gän­zen eines realen Fotos mit künst­li­chen Ele­men­ten stösst die neue Funk­tion «Ge­ne­ra­tiv füllen» schnell an ihre Grenzen.

Zum Vergleich: Bei meinem ersten Versuch vor 18 Monaten entstand ein Schaf-Android-Mischwesen.

Anderthalb Jahre nach meinem ersten Test ist es Zeit, einen erneuten Blick auf Adobe Firefly zu werfen. Welche Fortschritte hat der Bildgenerator gemacht? Und: Was taugen die Bearbeitungsfunktionen, die seitdem dazugekommen sind?

Mein Urteil seinerzeit war negativ: Positiv wertete ich die vielen Optionen zur formalen und stilistischen Steuerungsmöglichkeit des Resultats. Doch die meisten der von Firefly erzeugten Bilder waren im Vergleich durchschnittlich und den Kreationen der Konkurrenz (vor allem Midjourney) unterlegen.

Im April hat Adobe eine neue Version lanciert (das Firefly Image 3 Foundation Model). Das habe ich zum Anlass genommen, diese KI wieder häufiger zu benutzen. Berechtigterweise: Bei meinem ausführlichen Vergleichstest zur Frage, welche generative KI bei den fotorealistischen Motiven am meisten überzeugt, kürte ich sie zum Sieger. Wie man sieht, kommt die KI heute auch mit abstrakten Motiven gut zurecht. Das oben abgebildete Beispiel zeigt einen Androiden, der von elektrischen Schafen träumt. Das Resultat ist um Welten besser beim ersten Test, auch wenn die Probleme nicht zu übersehen sind, die die KI mit den Fingern des Androiden und den Beinen der Schafe hat.

Festzuhalten ist auch, dass ich meinen Prompt noch beschreibender und konkreter formuliert habe¹ als bei den ersten Versuchen. Die Verbesserungen sind somit nicht nur der Software geschuldet, sondern auch dem höheren Verständnis bei uns Usern, wie wir mit generativer KI umgehen müssen.

Ein reales Foto mit KI-Elementen anreichern

Das Original-Selfie.

Hier soll es jedoch vor allem um das neue Modul Generativ füllen gehen. In Englisch spricht man auch von Inpainting: Die Idee ist, dass Teile des Bildes entfernt und per KI ersetzt werden. Mit dieser Technik werden Objekte im Bild ausgetauscht. Auch das Erweitern der Bildfläche ist in diesem Modul möglich.

Als Ausgangsmaterial dient ein Selfie, das mich mit der Brille meiner Tochter zeigt. Das sollte in ein, naja, möglichst spektakuläres Motiv verwandelt werden. Dazu sind drei Schritte nötig:

  1. Ich markiere den Hintergrund und lasse ihn entfernen.
  2. Dann ziehe ich das Bild breiter.
  3. Schliesslich lasse ich die KI gemäss meinem Prompt einen neuen Hintergrund einfügen.
Das Freistellen des Motivs ist mit ein paar Klicks erledigt.

Im Modul Generativ füllen gibt es für jeden Schritt den passenden Befehl, nämlich Entfernen, Erweitern und Einfügen. Es gibt ausserdem den Befehl Verschieben, mit dem sich ein Bildobjekt umplatzieren lässt.

Der erste Schritt erfolgt halb automatisch: Mit dem Subtrahieren-Pinsel markiere ich grob den Hintergrund und klicke auf die Schaltfläche Entfernen. Mit wenig Aufwand entsteht so ein annehmbares Resultat – als Perfektionist hätten wir natürlich noch die kleine Delle zuoberst an meinem Schädel korrigiert.

Mal zum Arzt mit dieser Schulter?

Das verbreiterte Bild: Was ist bloss mit diesen Schultern los?

Das Erweitern erfolgt genauso unkompliziert. Firefly steht vor der Aufgabe, dass auf dem Originalbild meine Schultern nur halb zu sehen sind. Die werden automatisch angesetzt. Das Endergebnis ist akzeptabel, aber nicht grossartig. Meine linke Schulter sieht im Vergleich zur rechten zu bullig aus. Man kann das damit entschuldigen, dass ich sie (vielleicht) nach vorn strecke – so wie man das tut, wenn man sich das Handy zwecks Selfie vors Gesicht hält.

Mein Prompt lautet, eine futuristische Achterbahn einzufügen, die durch eine Schweizer Landschaft führt.

Ist das Resultat gelungen? Nun, das liegt im Auge des Betrachters.

Das Endresultat: Matthias auf der (wenig vertrauenerweckenden) KI-Achterbahn.

Positiv finde ich folgende Dinge:

  • Die Perspektive stimmt einigermassen: Es gibt eine Bahn, die nach hinten verschwindet, eine Art Gondel und ein Gerüst rundherum, wie das bei einer Achterbahn der Fall wäre.
  • Die Landschaft könnte in der Schweiz sein.
  • Und es gibt nette Details, wie die Härchen an meinem Hals, die im Gegenlicht schimmern.

Da wäre mir das Lachen längst vergangen

Alles in allem überwiegen die Unstimmigkeiten aber bei Weitem:

  • Die Achterbahn ist viel zu schmal. Ich würde kaum zwischen den Metallträgern durchpassen.
  • Die Konstruktion wirkt chaotisch. Die meisten der Gerüstelemente haben keinen erkennbaren Zweck und manches führt vom Nichts ins Nichts.
  • Die Schärfeebenen stimmen nicht. Meine Schultern sind schon etwas unscharf, aber Teile der deutlich weiter hinten liegenden Metallkonstruktion befinden sich im Fokus.
  • Mein rechtes Ohr hat sich irgendwie verdoppelt.

Letztlich passen aber vor allem die Bildstile nicht zusammen: Das Selfie ist im Vergleich zum stark farbgesättigten Hintergrund zu blass. Und die Beleuchtung im Gesicht passt nicht zur Umgebung.

Würden wir dieses Bild verwenden wollen? Natürlich kommt das immer auf den Kontext an. Für einen Scherzpost auf Instagram wäre es akzeptabel. Aber selbst als Illustration in einem Blog – ausser zu einem KI-Thema – würde ich es keinesfalls verwenden.

Habe ich zu viel gewollt? Vermutlich wäre das Resultat besser, wenn als Ausgangsmaterial kein Selfie, sondern eine Illustration hätte herhalten müssen. Und es ist anzunehmen, dass es einfachere Hintergründe gibt als eine Achterbahn; man denke an eine unscharfe Stadtlandschaft oder ein paar Palmen und blauer Himmel. Die Beispiele von Adobe, die – so hoffe ich doch – nicht manuell nachbearbeitet sind – können sich sehen (und drucken) lassen. Bei derlei Aufgaben sollte Inpainting auch mit professionellen Ansprüchen eingesetzt werden können.

Bei meinen Test soll es jedoch immer auch darum gehen, die Grenzen der künstlichen Intelligenz aufzuzeigen und dem Eindruck entgegenzuwirken, mit diesen Instrumenten sei ohne jede Anstrengung einfach alles möglich. Was das angeht: q. e. d.

Fussnoten

1) «Ein Androide (Roboter) liegt in einem Bett und schläft. Über seinem Kopf schwebt eine Luftblase. In dieser Blase befinden sich zwei Schafe. Diese Schafe schimmern in einem elektrischen Blau.»

Beitragsbild: Der aktuelle Stand der Dinge, was von Schafen träumende Androiden angeht.

Kommentar verfassen