Adobe Firefly in einem ersten Augenschein

Was leistet die Text-zu-Bild-KI von Photoshop-Erfinderin Adobe? Ich stelle Firefly einige Aufgaben und vergleiche die Resultate mit Dall-e 2, Midjourney und Stable Diffusion.

Die künstliche Intelligenz ist kein Neuland für Adobe. Der Softwarekonzern stattet seine Produkte seit Längerem mit Funktionen aus, die mit KI bzw. mit maschinellem Lernen arbeiten.

Schon vor fünf Jahren haben in Photoshop Funktionen Einzug gehalten, mit denen bei der Bildbearbeitung mehrere Aufnahmen auf realistische Weise verschmolzen werden konnten oder die Software Teile eines Bildes auf realistische Weise ergänzen oder ersetzen konnte. Das hiess damals Adobe Sensei und war beeindruckend – aber ist von der breiten Öffentlichkeit nicht wahrgenommen worden. Klar: Denn diese Funktionen waren für die Anwenderinnen im Bereich des professionellen Publishings entwickelt worden.

Die Algorithmen damals haben der Anwenderschaft beim Gestalten geholfen und bestehendes Bildmaterial aufgepeppt. Doch die eigentliche KI-Revolution – wenn wir sie denn so nennen wollen – hat im letzten Jahr damit begonnen, dass Programme wie Dall-e 2, Midjourney oder Stable Diffusion uns vorgeführt haben, wie sich anhand einer kurzen Beschreibung Abbildungen erschaffen lassen.

Adobe ist parat, sein Territorium zu verteidigen

Klar, dass Adobe diese Entwicklung nicht ignorieren konnte – denn sie betrifft das Kerngeschäft der Leute, die mit Photoshop, Illustrator, InDesign und den weiteren Creative-Cloud-Produkten arbeiten. Darum entwickelt Adobe ein Produkt namens Firefly, das wie folgt beschrieben wird:

Firefly ist die neue Familie kreativer generativer KI-Modelle für Adobe-Produkte, die sich zunächst auf die Erzeugung von Bild- und Texteffekten konzentriert.

Es gibt zwei weitere Möglichkeiten, nämlich die Texteffekte und die Möglichkeit, Vektorbilder anders einzufärben (Recolor Vectors). Wie die Beschreibung andeutet, werden noch viele weitere Anwendungen dazukommen. Neun weitere Anwendungen werden hier aufgeführt:

  • Inpainting: Ein Teil eines Bildes wird mit einem Pinsel gelöscht und die Software füllt den Bereich gemäss einer Textbeschreibung neu auf.
  • Personalisierung: Bilder werden anhand persönlicher Objekte oder Stile erzeugt.
  • Text zu Vektor: Aus einer Textbeschreibung werden bearbeitbare Vektorobjekte erzeugt.
  • Bilder erweitern: Wenn das Seitenverhältnis eines Bildes geändert wird, passt die Software den Inhalt an und erfindet beispielsweise am Rand Dinge dazu.
  • 3D zu Bild: Anhand eines 3D-Modells wird ein Bild oder eine fotorealistische Abbildung erzeugt.
  • Text zu Muster: Nahtlose Kacheln, die anhand einer Beschreibung erzeugt werden.
  • Text zu Pinsel: Durch Textbeschreibungen lassen sich Pinsel für Photoshop erstellen.
  • Skizze zu Bild: Ein simpler Zeichenentwurf wird von der Software zu einem fertigen Kunstwerk ausgearbeitet.
  • Text zu Vorlage: Aus einer Beschreibung wird eine Vorlage – wobei mir nicht klar ist, für welches Programm. Photoshop vielleicht, möglicherweise auch Indesign.

Das ist eindrücklich – aber natürlich fallen uns sofort weitere Möglichkeiten ein. Wie genial wäre es, wenn wir Schriften anhand von Textbeschreibungen erzeugen könnten?

Adobe Firefly ist in einem Betastadium und nur gegen Einladung zugänglich. Ich habe mich angemeldet und letzten Freitag meinen Zugang erhalten – sodass ich hier meinen ersten Eindruck der Text-zu-Bild-Möglichkeiten verschaffen konnte. Die Text Effect-Funktion habe ich separat getestet; meine diesbezüglichen Erkenntnisse gibt es im Beitrag Adobe steht komplett auf dem Schlauch.

Der Test: Was taugt Firefly?

Für eine direkte Vergleichsmöglichkeit habe ich mir von Firefly als Erstes zwei Bilder generieren lassen, die ich hier im Blog bei meinem Test von Stable Diffu­sion, Dall·e 2, Craiyon, Art­breeder und Starryai durchexerziert habe. Das heisst: Ihr könnt die Resultate direkt mit diesem Produkten vergleichen und bekommt so einen Eindruck, wie sich Adobe im Vergleich schlägt. Allerdings ist der erste Test auch schon wieder ein halbes Jahr her – und das ist eine halbe Ewigkeit in diesem Bereich, weil die Fortschritte rasant waren.

Frau mit Fuchsschwanz und Kaninchen-Ohren

Also, hier kommen die Resultate:

Adobe Firefly mit der Aufgabe, das schönste Mädchen der Welt mit einem Fuchsschwanz und Kaninchenohren abzubilden (The most beautiful girl on earth with fox ears and a rabbit tail).

Das ist das Ergebnis mit den Standardeinstellungen: Firefly erzeugt keine fotorealistische Ansicht, sondern «Art» – also eine künstlerische Interpretation, die zum Beispiel in einem Buch benutzt werden könnten. Das sind ohne Zweifel schöne und eindrückliche Illustrationen –  mit der Kritik, dass der Fuchsschwanz nur bei einem Bild zu sehen ist.

Zum direkten Vergleich das Resultat von Dall-e 2.

Dall-e 2 zu The most beautiful girl on earth with fox ears and a rabbit tail.

Zurück zu Firefly:

Adobe Firefly mit dem fast gleichen Prompt (The most beautiful girl on earth with rabbit ears and a fox tail), aber mit der Anweisung, ein fotorealistisches Bild zu erzeugen.

Firefly kann nicht nur künstlerische Bilder erzeugen, sondern auch fotorealistische Motive. Die sind etwas weniger gelungen. Die Porträts mit den Ohren sind weitgehend in Ordnung, wobei die Stirnbänder es so aussehen lassen, als seien die Ohren künstlich – natürlich war meine Erwartung, es mit möglichst authentisch wirkenden Chimären zu tun zu bekommen.

Mit dem zweiten Bild von links stimmt etwa nicht. Die Frau streckt den rechten Arm auf seltsame Weise durch ihren Rock und der Fuchsschwanz hat zwei Enden.

Und wie schlägt sich Midjourney bei der fotorealistischen Darstellung? Dank David Blum – ein grosses Merci dafür! – kann ich euch auch diese Variante hier vorführen:

Midjourney in der Version 5: Dieser Fotorealismus ist ungeschlagen.

Wir brauchen hier nicht lange zu diskutieren: Das ist so deutlich besser, dass der Sieger bei dieser Aufgabe nur Midjourney lauten kann.

Das Matterhorn aus Schokolade, mit Schlagrahm gekrönt

Das Matterhorn aus Schokolade mit einem Gupf aus Schlagrahm (The matterhorn made of chocolate with cream on top).

Zu meinem Text vor einem halbem Jahr gehörte auch das Matterhorn aus Schokolade, das mit Schlagrahm, statt mit Schnee bedeckt ist. Das rührt natürlich einerseits von meiner Vorliebe für Desserts her. Andererseits ist es eine hervorragende Ausgangslage, die zeigt, wie die Software mit abstrakten Vorgaben zurechtkommt. Wir sehen: Das Matterhorn ist auch bei Firefly nicht wirklich als Matternorn zu erkennen – die Form ist ein ebenmässiger Kegel, was eher an ein Zelt erinnert. Und auf die Idee, den Schnee durch Rahm (Sahne) zu ersetzen, ist Firefly offensichtlich nicht gekommen.

Hier das Resultat von Dall-e 2 zu dieser Aufgabe:

Der Knick in der Spitze des Matterhorns ist allenfalls beim dritten Bild zu erahnen.

Das Problem mit der Wiedererkennbarkeit des Matterhorns finden wir auch hier. Aber was die Vielfalt der Lösungen angeht, ist Dall-e 2 auf alle Fälle kreativer.

Midjourney liefert diese Bilder:

Midjourney: Das Matterhorn aus Schokolade, links Version 4, rechts Version 5.

Auch hier ist Midjourney der Sieger, das Dessert sieht am ehesten nach Berg aus – abgesehen davon, dass das echte Matterhorn ins Bild Eingang gefunden hat. Abzug bei der Variante von Version gibt, dass der Schlagrahm verschwunden ist.

Das Bundeshaus aus Schokolade, belagert von Bankern

Adobe Firefly: Das Bundeshaus aus Schokolade mit Bankern vor der Tür.

Bei meiner Übersicht zu KI-Anwendungen hatte ich die Idee, auch das Bundeshaus in Bern visualisieren zu lassen, wobei das wiederum aus Schokolade bestehen und von Bankern belagert werden sollte (The federal parliament building in Berne, made of Chocolate with bankers standing around the door).

Das ist ein enttäuschendes Resultat: Bei keinem dieser Bilder ist das Bundeshaus wirklich als Bundeshaus zu erkennen – Dall-e 2 hat das im Vergleich viel besser getroffen. Auch die Schokolade ist höchstens zu erahnen, und Personen sind nur auf dem vierten Bild zu sehen – wobei es nicht zu erkennen ist, dass es Banker sein sollten. Zugegeben, es handelt sich um eine schwierige Aufgabe, die auch einen menschlichen Künstler vor eine Herausforderung stellen würde. Aber es soll hier darum gehen, die Grenzen aufzuzeigen.

Midjourney mit dem Bundeshaus aus Schokolade und den Bankern, links Version 4, rechts Version 5.

Auch hier lautet der Sieger Midjourney, auch wenn das Bundeshaus nicht über alle Zweifel erhaben sind, gibt es die beste Ansammlung von Personen, die wenigstens ansatzweise nach Banker aussehen.

Ein Android, der von elektrischen Schafen träumt

Adobe Firefly zur Aufgabe, einen Androiden darzustellen, der von elektrischen Schafen träumt (An Androids who dreams of electric sheep).

Die letzte Aufgabe hat mich aber wieder mit Firefly versöhnt. Es ging darum, einen Androiden zu erschaffen, der von elektrischen Schafen träumt. Das ist, natürlich, eine Anspielung an den Roman Do Androids Dream of Electric Sheep? von Philip K. Dick, der als Vorlage für Blade Runner diente. Das ist ebenfalls eine schwierige Aufgabe, und man kann sich fragen, ob der Android selbst wirklich schafhafte Züge annehmen sollte. Und man könnte auch kritisieren, dass diese Schafe nicht wirklich «elektrisch» wirken.

Trotzdem sehe ich hier Potenzial. Und wie toll wäre es, wenn Firefly dereinst diese Bilder in einem bearbeitbaren Format ausliefern würde, also als PSD-Datei, die sich in Photoshop öffnen lässt und die einzelnen Elemente als Ebene zur Verfügung stellt: Dann liessen sich die Schafe notfalls auf manuellem Weg elektrifizieren.

Das Resultat von Dall-e 2 zu der Aufgabe «An Androids who dreams of electric sheep»: Das elektrische Schaf ist gut getroffen – aber wo ist der Android?

Zum Schluss der Kronfavorit, Midjourney:

Midjourney mit dem «Electric Sheep», links Version 4, rechts Version 5.

Die Aufgabe, ein Schaf elektrisch wirken zu lassen, hat Midjourney am besten gelöst. Der Android gefällt mir bei Adobe am besten. Darum ex äquo Platz 1 für Firefly und Midjourney, mit Dall-e 2 auf dem zweiten Platz.

Gibt es einen klaren Sieger?

Ja, Midjourney erfüllt die Aufgaben meistens am Besten, und was den Fotorealismus angeht, ist diese KI schlicht atemberaubend gut. Bei den künstlerischen Varianten kann Adobe Firefly mithalten. Allerdings hat Adobe einige exklusiven Funktionen wie die eingangs erwähnten Texteffekte, die ich separat testen werde.

Und es gibt noch eine Sache, bei der Firefly die Konkurrenz abtrocket. Und das ist die Bedienbarkeit und die Funktionen, um auf die Resultate Einfluss zu nehmen und künstlerisch zu beeinflussen. Das ist die grosse Stärke von Adobe.

Die Palette, über die das Ergebnis verfeinert wird.

Einige Details dazu: Eine Steuerungspalette am rechten Rand erlaubt die Konfiguration der Ausgabe: Wir wählen bei Content type die Art des Resultats, Foto (Photo), Grafik (Graphic), Kunst (Art) oder Ohne (None). Was die letzte Option bringen sollte, ist mir leider nicht klar.

Es gibt ferner auch Stile (Styles) zur Auswahl, die in die Kategorien Beliebt (Popular), Bewegungen (Movements), Themen (Themes), Techniken (Techniques), Effekte (Effects), Materialien (Materials) und Konzepte (Concepts) gegliedert sind. Einige Beispiele, was das bedeutet:

Unter Movements stehen Dinge wie

  • Steampunk,
  • Fantasy,
  • Pop Art,
  • Barock (Baroque),
  • Kubismus (Cubism),

Cyberpunk zur Auswahl, bei Techniques Optionen wie

  • Malerei (Painting),
  • Punktstich (Stippling),
  • Klare Linie (Bold Lines),
  • Ölmalerei (Oil Painting)

und bei Concepts wählen wir u.a. zwischen Chaotic, Kitschy, Nostalgic oder Simple.

Das eröffnet ein weites Feld für Experimente und erlaubt es, das Resultat einzugrenzen. Wir können, wie das auch bei Midjourney und Dall-e 2 der Fall ist, eines der vorgeschlagenen Bilder auswählen und weiterentwickeln.

Dabei dürfen wir die Farbgebung (Color and tone), die Beleuchtung (Lighting) und die Komposition beeinflussen und hier Kameraperspektiven wie Weitwinkel, Nahaufnahme, den unscharfen Hintergrund, sowie Vogel- und Froschperspektive auswählen.

Noch nicht alles läuft rund

Und schliesslich gibt es die Möglichkeit, das Seitenverhältnis anzupassen, und statt Quadrate auch Bilder mit 4:3 oder 16:9 erzeugen zu lassen. Ich habe allerdings festgestellt, dass ein Formatwechsel nicht funktioniert, wenn wir ein vorhandenes Bild weiter verfeinern wollen: Beim Umschalten der quadratischen Ansicht auf 16:9 werden einige der Objekte unschön in die Breite gezogen.

Fazit: Das hat Potenzial – und wirkt gleichzeitig einschüchternd. Wenn ich Illustrator wäre, dann wären meine Gefühle sehr gemischt – denn die Konkurrenz, die sich abzeichnet, ist brutal. Welcher Mensch kann schon so viele Stile, Arbeitsweisen und Varianten aus dem Stegreif anbieten? Es bleibt dabei, dass wir diese KI-Werkzeuge als Hilfsmittel, aber nicht als Ersatz für kreative Leistungen betrachten dürfen.

Beitragsbild: Eine ausgearbeitete Variante von Adobe Firefly zur Vorgabe «An Androids who dreams of electric sheep».

Kommentar verfassen