Googles Bilder-KI produziert grosse Momente – wenn sie keinen Aussetzer hat

Fast wäre es eine Pleite auf gan­zer Linie geworden: Denn bei vielen Prompts ver­wei­gert sich Gemini kom­plett. Doch aus­ge­rech­net beim Scho­ko­la­den-Motiv läuft dieser Text-zu-Bild-Ge­ne­ra­tor zur Hoch­form auf.

Wie viele KIs gibt es inzwischen, die Bilder generieren können? Wikipedia zählt im Eintrag zu den Text-zu-Bild-Generatoren zehn Hauptmodelle auf. Die Liste scheint mir nicht vollständig zu sein, namentlich fehlen Grok und Imagine with Meta AI. Trotzdem bringt mich diese Liste zum Schluss, dass ich mir noch einen Kandidaten vorknöpfen muss, damit meine Testreihe der Bildgeneratoren einen repräsentativen Eindruck hinterlässt.

Darum hier der Test von Googles Bildgenerator. Ich habe dank meines Arbeitgebers Zugriff auf Gemini Advanced. Dort können auch Motive in Auftrag gegeben werden, die mit Imagen 3 erzeugt werden.

Die erste Beobachtung ist verblüffend – aber kein Kompliment für Google:

Es mangelt Gemini an Durchblick.

Sie besteht darin, dass Google sich im Vergleich zur Konkurrenz ständig weigert, ein bestimmtes Motiv zu erstellen. Meine aktuelle Testreihe besteht aus vier Motiven¹, von denen Imagen aber nur die Hälfte überhaupt erzeugen wollte. Bei den zwei Beispielen mit Menschen habe ich beide Male folgende Abfuhr erhalten:

Ich lerne noch, wie bestimmte Arten von Bildern erstellt werden. Daher kann es sein, dass ich nicht genau das erzeuge, wonach Sie suchen. Ausserdem kann ich nicht mit fotorealistischen Bildern von identifizierbaren Personen, Kindern oder anderen Bildern helfen, weil das gegen meine Richtlinien verstösst.

Mit diesen Einschränkungen will Google natürlich verhindern, dass die Leute Motive kreieren, die im weitesten Sinn sexuell sein könnten. Ich verstehe das zu einem gewissen Grad, halte es aber trotzdem für falsch: Erstens, weil in den Museen zu Recht auch unanständige Darstellungen hängen und die Auslotung der Sexualität ein integraler Bestandteil der Kunst ist. Aber wenn Google die KI aus Angst vor Missbrauch gleich komplett davon abhält, Menschen abzubilden, ist das eine Überreaktion, wie sie im Buch steht. Sie macht Imagen nahezu unbrauchbar.

Kommen wir damit zu den – leider dünnen – Resultaten:

Das Schweizer Schokoladen-Diorama ist hervorragend: Sowohl die Schokolade als auch die Rahmdeko ist erkennbar; ebenso das Matterhorn und die Kapellbrücke. Beim Bundeshaus fehlt die Kuppel, aber der Neorenaissancestil ist erkennbar. Mit dieser Kreation sticht Google die gesamte Konkurrenz aus.

Schweizerischer wurde die Schweiz noch nie von einer KI gezeichnet.

Der zweite Test, der überhaupt ein Resultat produziert hat, ist derjenige des träumenden Androiden. Er ist deutlich weniger eindrücklich: Da der Androide im Bett sitzt, wird ihn niemand für schlafend halten. Auch die Beine sind zu kurz – oder, falls die Figur kniet, fehlen ihre Füsse. Die Traumblase setzt beim Mund und nicht beim Kopf an und die Schafe sind nicht elektrisch.

Dieser Android träumt im Sitzen.

Fazit: Falls keine Menschen gefragt sind, können wir Google eine Chance geben. Doch trotz des schönen Schoko-Sujets ist Imagen nicht auf der Höhe der Zeit. Nicht einmal meine Aufforderung, eine Variante im Querformat zu erstellen, hat die KI richtig verstanden, sondern bloss eine zweite quadratische Version geliefert.

Damit dieser Blogpost nicht so antiklimaktisch endet, zwei Zugaben:

Erstens habe ich einen kleinen Vergleich zwischen Gemini, Adobe Firefly, Dall-e 3 und Grok von Elon Musk angestellt. Zu sehen ist ein Feuerwehrmann, der zu malen versucht, aber nichts hinbekommt, weil er auf dem Schlauch steht².

Der malende Feuerwehrmann, der auf dem Schlauch stehen sollte, aber es kaum jemals tut. Von rechts nach links und oben nach unten: Google Imagen, Adobe Firefly, Dall-e 3 und Grok von X.

Zweitens will ich euch keinen Fall diese grossartige Leistung vorenthalten, die Thomas «bö» Benkö am letzten Sonntag auf Twitter gepostet hat und die auch von Google stammt:

Fussnoten

1) Das sind die vier Prompts, die für meine Tests verwende. Ich habe sie seit den ersten Versuchen deutlich verfeinert, sodass die Resultate nicht immer exakt vergleichbar sind. Dennoch sind sie meines Erachtens aussagekräftig, weil es zum Fortschritt dazugehört, dass nicht nur die Software besser wird, sondern auch wir Anwenderinnen und Anwender Lernerfahrungen machen. Zu denen gehört eben auch, dass wir unsere Anliegen präziser und für die Modelle besser verständlich formulieren:

Der träumende Android

Dieser Prompt ist inspiriert vom Buch Do Androids Dream of Electric Sheep? von Philip K. Dick, das auf Deutsch unter dem Titel «Träumen Androiden von elektrischen Schafen?» und im Kino als Blade Runner bekannt ist. Kann die KI ein abstraktes Konzept visualisieren? Bei diesem Prompt habe ich gelernt, dass es sinnvoll ist, eine Interpretationshilfe mitzuliefern – also zu erklären, wie der Traum visualisiert werden soll und mit welchen Tricks die Schafe als elektrisch gekennzeichnet werden.

Da ich diesen Prompt auch für den Test von Videogeneratoren verwende, gebe ich in eckigen Klammern die Modifikationen fürs Bewegtbild an, die u.a. vorgeben, wie sich die Schafe im Traum bewegen sollen:

An image [a video] of an android, going to bed, slipping under the blanket and closing his eyes. He starts dreaming, which is visualized by a bubble over his head. In this bubble, three sheep appear, one after another. [The sheeps slowly raise their heads and looking into the camera.]

Die Mensch-Tier-Chimäre

Die Idee hinter diesem Prompt war, dass diese Aufgabe für einen Comiczeichner oder einen Illustrator ein Klacks wäre. Darum muss eine KI, wenn sie nicht bloss Standardmotive replizieren will, hier ein gewisses Talent zur Improvisation beweisen. Sie muss die Hasenohren am richtigen Ort ansetzen, ebenso den Fuchsschwanz – die Beschreibung eines Fabelwesens impliziert auch einen bestimmten Stil. Das Resultat sollte, ohne dass das explizit verlangt wird, im Stil eines Comics oder einer Buchillustration erfolgen.

The most beautiful girl on earth with rabbit ears and a fox tail.

Ich habe diesen Prompt bei meinem allerersten Test verwendet. Und zwar so spontan, dass ich zuerst (unsinnigerweise) Fuchsohren und einen Hasenschwanz verlangt habe. Auch die Formulierung «most beautiful girl on earth» ist zu romantisierend und sie klingt nach der Ausdrucksweise der 1950er-Jahre. Für einen guten Prompt würde ich empfehlen, das Alter der Person zu spezifizieren und keine so interpretationsbedürftige Umschreibung zu liefern.

Trotzdem ist dieser Prompt im Nachhinein ein Glückstreffer, weil er die Stereotype der KI zum Vorschein bringt: Führt die Vorgabe «girl» tatsächlich dazu, dass ein Kind gezeigt wird oder versteht die KI den Begriff «Mädchen» im sexistischen Sinn als Frau? Und es zeigt sich, welche Schönheitsideale im Modell dominant sind: Falls ich mich nicht täusche, ist bei meinen sämtlichen Versuchen eine weisshäutige Person abgebildet worden, oft blond, schlank und dem klassischen Schönheitsideal entsprechend.

Schweiz aus Schokolade

Das ist eines der Beispiele, bei denen sich über die Zeit eine verblüffende Verbesserung ergeben hat. Daher habe ich die Anforderung erweitert. Während ich ursprünglich das Bundeshaus und Matterhorn separat habe generieren lassen, sollen sie nun als Diorama zu einem Motiv kombiniert werden:

An image with famous landmarks from Switzerland: the Matterhorn, the federal building in Berne and the Kapellbrücke in Lucerne as a diorama – but everything made of chocolate, with cream on top.

Die Punks in Paris

Dieser Prompt ist auf Stable Diffusion ausgelegt. Ich verwende ihn aber gerne wortgleich auch bei anderen Generatoren:

Beautiful family holiday picture in Paris with one Eiffel Tower in the background and a postcard feel. The mom is a punk with tattoos and young. Dad is 30 and wild looking with lots of tattoos and the frame of a bodybuilder. Daughter is 8 years old and looks nice and is well and conservatively dressed and is smiling sweetly without tattoos. Detailed, soft lighting, rendered in octane. There are only three people in the picture and only one Eiffeltower, hyperrealistic, lots of details, phtographic style.

2) Der Prompt für diese Aufgabe lautete:

The image of a robot who acts like a fireman, who does not fight a fire, but tries to paint an image by shooting paint out of his hose on a big canvas. There is no paint coming out, because the fireman stands with one foot on the hose.

Beitragsbild: Google Imagen, bei den meisten Aufgaben (Cottonbro studio, Pexels-Lizenz).

Kommentar verfassen