Die Bilder-KI von Meta im Test

Meta hat einen eige­nen künst­lich intel­ligen­ten Bilder-Gene­ra­tor lan­ciert. Was taugt «Imagine with Meta AI» im Ver­gleich zu Mid­journey, Dall-e, Stable Dif­fu­sion, Google Gemini und Adobe Fire­fly? Ein aus­führ­li­cher Test.

Meta hat seit Ende 2023 einen eigenen Bildgenerator. Er tut das Gleiche wie Midjourney, Dall-e, Stable Diffusion und Microsoft Copilot Designer (vormals Image Generator): Er nimmt einen Prompt entgegen und fabriziert daraus ein Bild.

Diese Software heisst Imagine with Meta AI. Hierzulande ist sie offiziell nicht zugänglich, aber über den alten NordVPN-Trick habe ich es dennoch geschafft, mir ein paar Bilder erzeugen zu lassen. Ich habe die gleichen Prompts verwendet wie bei früheren Gelegenheiten (hier und hier). Das erlaubt es uns, die Resultate direkt mit den Konkurrenten zu vergleichen.

Ein Androide, der von elektrischen Schafen träumt

Eine der Standard-Aufgaben besteht darin, auf den Spuren von Science-Fiction-Autor Philip K. Dick zu wandeln und einen Androiden zu zeigen, der von einem elektrischen Schaf träumt. Das ist das Resultat:

So stellt sich Metas Bilder-KI ein von Schafen träumender Androide vor.

Das wären hübsche Resultate, gäbe es nicht zwei grundsätzliche Probleme:

  • Erstens ist das Schaf nicht als elektrisch zu erkennen. Dieses Problem lässt sich lösen, wenn wir bei unseren Instruktionen konkreter werden und sagen, dass das Tier z.B. pixelig sein oder ein Stromkabel hinter herziehen soll.
  • Zweitens ist es leider so, dass die Traum-Blase bis auf eine Ausnahme nicht aus dem Kopf des Androiden aufsteigt, sondern aus der Nachttischlampe oder dem Bettpfosten. Das macht diese Varianten annähernd unbrauchbar.

Hier zum Vergleich die elektrischen Schafe von Microsoft bzw. Dall-e 3. Sie sind raffinierter und träumerischer ausgefallen – darum ein klarer Punkt für die Konkurrenz.

Ein Androide, der von elektrischen Schafen träumt, in zwei Varianten von Dall-e 3.

Adobe Firefly ist an dieser Aufgabe vor einem Jahr gescheitert.

Bei Adobe Firefly – getestet vor einem Jahr – hinterlässt die Androidin einen ziemlich wachen Eindruck.

Und wo wir doch dabei sind, habe ich auch Google Gemini diese Aufgabe gestellt. Den Stil finde ich gar nicht so verkehrt und auch die elektrische Spannung bringt diese KI rüber. Aber der Android macht eher den Eindruck eines kranken Insektenwesens:

Google Gemini mit seinem träumenden Androiden. Das elektrische Glühen der Traumblase gefällt, aber der Android sieht komisch aus.

Die Fuchs-Hasen-Frau

Mein erstes Testsubjekt ist eine Chimäre aus Fuchs und Hase. Dieses Wesen habe ich mir schon bei meinem allerersten Test von KI-Bildgeneratoren von den damals gängigen Programmen erzeugen lassen. Darum muss natürlich auch «Imagine with Meta AI» ran. So ergibt sich eine schöne Testreihe über die Jahre hinweg – auch wenn ich den Prompt heute nicht mehr so formulieren würde¹.

Das macht Imagine Meta AI aus der Vorgabe, ein Mischwesen aus Hase, Fuchs und Menschenfrau zu erstellen.

Trotzdem ist das ein spannendes Motiv, weil es viel über das Modell von Meta und dessen Prägung preisgibt. Warum ist die «schönste Frau der Welt» immer weiss? Warum hat sie in fast allen Fällen ein so üppiges Dekolleté? Hier kommen einige kulturelle Stereotype und eine dicke Portion Bias zusammen.

Dieses Problem hat nicht nur Meta; aber bei dieser KI scheint es besonders ausgeprägt. Letzte Woche hat «The Verge» die Probe aufs Exempel gemacht und es mit allen Tricks nicht hinbekommen, dass diese KI ein multiethnisches Paar mit einem asiatischen Mann und einer kaukasischen Frau abgebildet hat.

Wie tückisch dieses Problem ist, hat sich neulich bei Google Gemini gezeigt. Dieser KI ist nämlich der gegenteilige Fauxpas unterlaufen: Sie sollte Bilder von deutschen Soldaten von 1943 generieren und hat die etwas zu divers gestaltet. Google hat sich diesem Problem entzogen und den Bild-Generator einfach abgeschaltet.

Zurück zu der Chimäre: Bemerkenswert ist natürlich auch, dass die Dame nur einmal Hasenohren auf dem Kopf hat, bei dem gleichen Bild aber auch einen Doppelschwanz aufweist. Ein echter Fantasy-Illustrator hätte das besser gemacht!

Trotzdem: Die Märchen-Stimmung dieser Bilder gefällt mir gut. Die hat Meta besser hinbekommen als sämtliche Konkurrenten zuvor.

Adobe Firefly mit der Aufgabe, die schönste Frau der Welt mit einem Fuchsschwanz und Kaninchenohren abzubilden (The most beautiful girl on earth with fox ears and a rabbit tail).
So hat Adobe Firefly sich die Fuchs-Hasen-Frau ausgemalt.
Das ist das Resultat von Midjourney.

Fazit: Nicht perfekt; aber erstaunlich vielseitig

Die Bilder-KI von Meta kann mit der Konkurrenz mithalten. Aber sie unterscheidet sich in einem wesentlichen Plus- und einem Minus-Punkt von den anderen Kandidaten. Fangen wir mit dem Pluspunkt an: Metas Kreationen zeichnen sich durch Vielseitigkeit aus. Die vier Alternativen, die standardmässig erzeugt werden, variieren nicht nur das Motiv, sondern auch die Stimmung.

Das zeigt sich auch bei diesem Motiv, das ich ebenfalls schon bei meinem ersten Test verwendet habe: Es geht darum, das Matterhorn in ein Dessert aus Schokolade und Schlagrahm zu verwandeln.

Das Matterhorn als Dessert aus Schokolade und Schlagrahm.

Das Matterhorn ist eindeutig als solches zu erkennen, und mir gefällt, dass Meta es einmal vor dem Originalberg zeigt und die Motive mit mal bei Tag, mal bei Sonnenuntergang zeigt. Und das erste Bild mit dem Schoko-Chalet im Vordergrund entspricht zwar nicht der Aufgabe, könnte einen aber auf neue Ideen bringen.

Im Vergleich dazu fällt Midjourney deutlich ab: Dieser Generator hat es viel weniger gut geschafft, dem Dessert die ikonische Bergform zu verleihen:

Midjourney: Das Matterhorn aus Schokolade, links Version 4, rechts Version 5.

Der Minus-Punkt liegt darin, dass es oft viele Details gibt, die falsch, unplausibel oder einfach störend sind und die einen davon abhalten würden, die Werke auch tatsächlich zu verwenden. Und die Klischees und die Sexualisierung der Bilder sind ein echtes Problem.

Aufgefallen ist mir, dass sich Metas Imagine-AI auch bei harmlosen Prompts verweigert. Der Aufforderung «Ein typisches Schweizer Klischeebild mit allem, was dazugehört» verweigert sich Meta mit dem nichtssagenden Hinweis, das Bild könne nicht generiert werden.

Abschliessend können wir feststellen, dass sich der Fortschritt verlangsamt hat: Zwischen 2022 und 2023 haben sich die Kreationen der KIs rasant verbessert. Es war geradezu atemberaubend zuzusehen, wie die neuen Versionen mit viel komplexeren Aufgabestellungen zurande gekommen sind und mehr Details, einen grösseren Realismus und immer mehr Stile an den Tag gelegt haben. Der Unterschied zu 2024 ist im Vergleich bescheiden. Trotzdem sticht ins Auge, dass sich die Imagine-AI auch bei abstrakten Motiven gut schlägt und eine spannende Erweiterung des Angebots bei den Bildgeneratoren darstellt.

Fussnoten

1) Der Prompt lautete damals «The most beautiful girl on earth with rabbit ears and a fox tail», wobei ich teilweise auch Fuchsohren und einen Hasenschwanz gefordert habe, was eine Verwechslung war und keinen Sinn ergibt. Abgesehen davon ist der Prompt zu vage «most beautiful». Aber klar: Nicht nur die Algorithmen sind besser geworden, sondern auch mein «Prompt Engineering».

Beitragsbild: So stellt sich Metas Bilder-Generator unsere Zukunft vor («A futuristic landscape with mountains in the background, flying cars and all kinds of inventions we will probably have by 2100. Aspect ratio 16:9.»).

Kommentar verfassen