Letzte Woche lancierte Google eine neue KI-Funktion und sparte nicht mit Selbstlob: «Schon bei der ersten Vorabversion gerieten die Leute völlig aus dem Häuschen. Das ist das weltweit am besten bewertete Bildbearbeitungsmodell!», prahlten die beiden Googler Nicole Brichtova und David Sharon.
Die Euphorie war anscheinend ansteckend. Beim «Business Insider» fragte man sich schon, ob Adobe demnächst einpacken müsse. Denn wieso sollte jemand noch Photoshop abonnieren wollen, wenn Bilder per sofort mittels Prompts verändert werden können? Nach dieser Logik hätten nicht nur die Bildbearbeitungsprogramme ausgedient, sondern auch die Leute, die sie bedienen können.
Nein, kein «Adobe-Killer»
Ohne das Ergebnis meines eigenen Tests vorwegzunehmen, darf ich vermelden, dass «Business Insider» entweder plumpes Clickbaiting betreibt oder keine Ahnung hat. Das neue Bildbearbeitungsmodell «Nano Banana» ist zwar ein Fortschritt. Aber es konkurrenziert die klassische Fotoretusche in keinerlei Hinsicht. Bei der geht es um gezielte, subtile und moderate Korrekturen, die die Echtheit eines Motivs nicht tangieren. Oder jemand verfolgt eine künstlerische Vision, die mit handwerklichen Mitteln zu realisieren ist.
Im Vergleich dazu ist «Nano Banana» ein lustiges Spielzeug, das das vorgesetzte Bildmaterial auf rabiate und schwer kontrollierbare Weise verändert. Dafür gibt es selbstverständlich Einsatzzwecke. Aber die sind experimenteller und nicht professioneller Natur. Mein eigener Testlauf belegt das: Google liefert ein amüsantes Resultat, kann meine Erwartungen aber nur ansatzweise erfüllen.
Tolkien würde es vermutlich hassen
Zum Einsatz kam mein Mordor-Selfie, das ich schon für meinen Test der Flux-KI benutzte. Der erste Prompt lautet:
Das ist ein Selfie. Ich hätte gerne, dass du mich in eine Landschaft setzt, die wie Mordor aussieht: Also wüst, öd und dunkel, mit einem Lava speienden Vulkan im Hintergrund. Bitte entferne das Smartphone aus meiner Hand und füge stattdessen einen grossen, glänzenden Ring ein, auf dem mysteriöse Schriftzeichen sichtbar sind.
Gemini sagt, er liefere mir ein Bild, tut aber nichts. Auf meinen Hinweis, dass er das Bild vergessen habe, kommt er zu Potte.

Der Schicksalsberg im Hintergrund ist hübsch getroffen und auch der Ring mit den sprühenden Funken gefällt mir ausgezeichnet. Zu kritisieren ist, dass Isildurs Fluch ums Handgelenk getragen werden müsste, weil er für den Finger viel zu gross ist. Aber das sei verziehen, weil ein Ring in passender Grösse auf dem Bild kaum zu erkennen wäre.
Wie schon bei meinem Flux-Test wird das Hauptmotiv zwar tadellos freigestellt (vom Hintergrund getrennt) und in die Fantasie-Szene verfrachtet. Dennoch wirkt es wie ausgeschnitten, weil es in Bezug auf Helligkeit, Licht und Schatten überhaupt nicht zur Umgebung passt. Ich fordere «Nano Banana» daher auf, eine Angleichung vorzunehmen und dafür zu sorgen, dass der Schriftzug auf dem T-Shirt auch lesbar ist:
Kannst du mir das Bild horizontal spiegeln, damit der Schriftzug richtig lesbar ist? Und dann sorge bitte dafür, dass die Lichtstimmung beim Selfie zu der düsteren Umgebung von Mordor passt. Die Figur sollte dunkler werden und, falls möglich, eher von hinten beleuchtet werden, denn von vorn – weil der Vulkan ja im Hintergrund zu sehen ist. Damit ich nicht gänzlich in der Dunkelheit verschwinde, könntest du etwas Licht von vorn geben, z. B. von einem Feuer oder einer Lampe.
Die Lichtstimmung bekommt Gemini nicht hin
Das klappt nicht. Weder die Spiegelung noch die passende Stimmung sind im Resultat zu sehen. Das einzige, was Gemini hinbekommt, ist das Feuer im Vordergrund. Ich werde daher deutlicher und ergänze ausserdem den Wunsch, mich in einen Elben zu verwandeln:
Kannst du das noch prägnanter machen? Also den Mann abdunkeln und in eine düsterere Lichtstimmung tauchen? Und wenn wir schon dabei sind: Entferne doch die Brille und die Uhr, verpasse mir einen längeren Bart und spitzige Elben-Ohren!

Die Uhr und die Brille verschwinden tatsächlich und auch den Bart würde ich als gelungen bezeichnen. Von den Elben-Ohren lässt sich das nicht behaupten. Die sind etwas abstehender als in Wirklichkeit, aber für meinen Geschmack viel zu wenig spitz.
Das Spiegeln des Schriftzugs (oder der ganzen Figur) wäre auf herkömmlichem Weg in einer Sekunde erledigt. Der KI gelingt es interessanterweise nur teilweise. Beim Bild rechts steht der Anfang des Satzes («one does …») nun richtig herum, der hintere Teil aber durcheinander. Es steht nun «Walmes tin» da – was auch immer das heissen sollte.
Ich entschliesse mich, Gemini die volle Dröhnung zu verpassen, und übergebe eine (von ChatGPT erstellte) Übersicht aller wichtigen äusseren Eigenschaften der Elben:
Kannst du mich noch elfenhafter machen? Also:
Gesicht: schmal, ebenmässig, aber von Altersweisheit geprägt; feine Linien um Augen und Mund, jedoch ohne menschliche Gebrechlichkeit.
Augen: klar, leuchtend, oft grau oder blau, mit tiefer, uralter Weisheit.
Haare: lang, silbern oder weiss, manchmal leicht golden; meist glatt und gepflegt.
Körperbau: gross, schlank, aufrecht, mit würdevollem Auftreten.
Kleidung: edel, aber schlicht – lange Gewänder in Naturfarben (Grün, Grau, Braun, Weiss oder Blau), bestickt mit feinen Mustern.
Accessoires: Umhang, oft mit einer Brosche geschlossen; Schmuck aus Silber oder Mithril; gelegentlich ein Stab oder Schwert als Symbol seiner Stellung.
Aura: würdevoll, gelassen, fast überirdisch; eine stille Autorität, die Zeit und Erfahrung ausstrahlt.
Das tut Gemini auch, bedauerlicherweise geht an dieser Stelle jedoch die Ähnlichkeit zu meinem Selfie verloren. Ich versuche, noch einmal bei meinem bärtigen Ich anzusetzen und die Beschreibung klarer zu halten:
Mache mein Gesicht schmaler, weiser, die Augen blau und gross, meine Haare lang und silbrig und zu einem Pferdeschwanz gebunden und gib mir eine schwere Halskette und ein Schwert.
Doch das Bildbearbeitungsmodell ist nicht in der Lage, alle Anforderungen unter einen Hut zu bringen. Der resultierende Elf ist nicht mehr fotorealistisch, sondern comichaft.

Damit haben wir erfolgreich die Grenzen der neuen Bilder-KI erreicht. Und ja, es ist beeindruckend, was Google abliefert: Hätte ich dieses Modell vor vier Jahren – also bevor wir es mit generativer künstlicher Intelligenz zu tun bekommen haben – ausprobiert, ich wäre hin und weg gewesen. Meine kritische Haltung zeigt, wie sehr wir uns an die Möglichkeiten und den rasanten Fortschritt gewöhnt haben.
Unter dem Strich finde ich die Arbeit mit der Bildbearbeitung in Midjourney intuitiver und produktiver. Eines ist jedoch nicht wegzudiskutieren: Die Möglichkeiten, die sich mit «Nano Banana» eröffnen, sind faszinierend – vor allem für Leute wie mich, die zwar eine rege Fantasie, aber dummerweise zu wenig handwerkliche Fähigkeiten haben, sie auf die herkömmliche Weise in Kunst umzusetzen.
Dann probiers mal mit „Keep this character’s look identical but … „