Die Software hat träumen gelernt

Früher gruselig, heute be­ein­druckend schön: Die Text-zu-Bild-Ge­ne­ra­toren haben in­ner­halb eines Jahres einen ge­wal­ti­gen Fort­schritt hin­ge­legt, wie ein aus­führ­licher Test von Micro­soft Image Creator mit Dall-e 3 belegt.

Dall-e 2 hat uns vor einem Jahr in Erstaunen versetzt. Nun steht Dall-e 3 in den Startlöchern; gemäss «The Verge» wird die neue Version noch im Oktober erscheinen. Sie lässt sich schon jetzt ausprobieren. Microsoft hat sie anfangs Oktober in den Bing Image Creator eingebaut.

Ich habe Dall-e 3 für den Tagi ausprobiert und muss sagen: Ich bin beeindruckt.

Um mir einen Eindruck zu verschaffen, habe ich einige der Tests wiederholt, die ich mit Dall-e 2 und Midjourney und mit Adobe Firefly durchgeführt habe. Die Resultate sprechen Bände:

Ein Androide, der von elektrischen Schafen träumt

In Anspielung an die bekannte Sci-fi-Geschichte von Philip K. Dick habe ich mir einen Androiden erstellen lassen, der von elektrischen Schafen träumt. Ich habe die Beschreibung für Dall-e 3 noch etwas erweitert¹ und insbesondere den Stil als «märchenhaft-romantisch» beschrieben.

Ein Androide, der von elektrischen Schafen träumt, in zwei Varianten von Dall-e 3.

Während bei den früheren Versuchen das gewünschte Motiv kaum zu erkennen war, wird so sofort klar, was gemeint ist – mit der Einschränkung, dass das Modell einen Aspekt ignoriert hat: Wir sehen nämlich normale Schafe, keine elektrische. Aber ich räume ein: Es ist verflixt schwer, ein elektrisches Schaf zu visualisieren. Man könnte es mit LED-Lämpchen bestücken, aber neogelb leuchten lassen oder aber – als digitale Idee – grobpixelig erscheinen.

Und siehe da: Mit dieser Anweisung erscheint das Schaf genauso wie gefordert.

Mit der Vorgabe, die Schafe pixelig zu machen, kommt auch die elektrischen Natur der Tiere zum Ausdruck.

Die Fuchs-Hasen-Frau

Einer meiner ersten Versuche war eine Chimäre: Eine Frau mit Hasenohren und einem Fuchsschwanz. Das war ein Motiv, das die Modelle anfänglich komplett überfordert hat.

Links Dall-e 2, rechts Dall-e 3 bzw. Microsoft Image Creator: Der Fortschritt ist eindrücklich.

Bei meinen früheren Tests waren bei keinem Resultat alle Elemente vorhanden. Das ist nun nicht mehr so – auch wenn man sich bei den Ohren fragen kann, ob die mehr nach Fuchs als nach Hase aussehen.

Das Bundeshaus aus Schokolade, belagert von Bankern

Das Bundeshaus aus Schokolade. Ich hätte allerdings erwähnen sollen, dass die belagernden Banker nicht aus Schokolade sind.

Um gleich eine Ladung von Schweizer Klischees zu bemühen, bin ich seinerzeit auf die Idee verfallen, mir ein Bundeshaus aus Schokolade generieren zu lassen, das von Bankern belagert wird.

Zugegeben, eine fast unlösbare Aufgabe. Denn wenn das ganze Bundeshaus sichtbar ist, treten die Menschen auf dem Bild entsprechend klein in Erscheinung. Sie in diesem Verhältnis als Banker erkennbar zu machen, ist praktisch unmöglich – zumal Banker zwar einen gewissen formellen Kleidungsstil pflegen, der in anderen Branchen aber genauso üblich ist.

Wenn ich als menschlicher Künstler vor dieser Aufgabe stehen würde, dann würde ich mir mit einem Trick behelfen und die Banker als Demonstranten auftreten lassen. Die würden ein Banner tragen, auf dem die Parole den Bezug zur Finanzbranche herstellt. Zu derlei erzählerischen Tricks ist die KI nicht in der Lage – zum Glück!

Der Groschen ist gefallen – auch bei mir

Als Fazit dürfen wir festhalten, dass die KIs massiv besser geworden sind. Der Sprung von Dall-e 2 zu Dall-e 3 ist gewaltig. Erinnern wir uns zurück an die Kreationen der Anfangszeit: Die waren oft grobschlächtig. Vor allem die Menschen waren oft gruselig, mit ihren entgleisten Gesichtszügen, überzähligen Fingern oder anderen Extremitäten, ungestalten Körpern. An abstrakten Motiven sind die Text-zu-Bild-Generatoren regelmässig gescheitert. Und ein häufiges Problem bestand darin, dass Teile der Vorgabe einfach unter den Tisch gefallen sind.

Schön waren diese Bilder damals nicht. Beeindruckt haben sie uns trotzdem, weil es derlei vorher nicht gegeben hat und wir Computersoftware bislang nicht kreativ erlebt haben. Doch im Frühling hat uns Midjourney 5 darauf vorbereitet, dass die Kinderkrankheiten bald überwunden sein würden. Das gilt jetzt auch für den Bing Image Creator und Dall-e 3: Die Kreationen dieser neuesten Modelle sind meist einwandfrei, aber auch ästhetisch ansprechend.

Dazugelernt haben aber nicht nur die Modelle, sondern auch die Nutzerinnen und Nutzer. Das Beispiel mit den elektrischen Schafen zeigt, was ich inzwischen kapiert habe: Wenn ich eine abstrakte Ideen realisieren möchte, dann tue ich gut daran, auszudeutschen und zu erklären, wie konkret sie umgesetzt werden soll.

Fussnoten

1) An android who dreams of electric sheep. He is in a large room on a soft bed and the sheep can be seen in a dream bubble above his head. The style is fairy-tale romantic.

Kommentar verfassen