Ein Fotograf beugt sich über eine Kamera auf einem Stativ, die auf ein berühmtes Porträt gerichtet ist. Die Aufnahme zeigt das Gemälde der Mona Lisa in einem kunstvoll verzierten Rahmen. Der Fotograf trägt ein weisses Hemd und ein blaues Tuch um die Taille.
Etwas mehr Abstand wäre auch okay.

Drei abgefahrene Kunst-Experimente mit Midjourney

Um die Bild­be­ar­bei­tungs-Funk­tion von Mid­jour­ney aus­zu­pro­bieren, schicke ich Mona Lisa zum Foto­gra­fen, Marylin Mon­roe in ein Kaff auf dem Land und eine kif­fen­de Katze ins Casino.

Midjourney ist eine der generativen Bilder-KIs der ersten Stunde. Ich halte sie nach wie vor zu den wichtigsten Vertretern ihrer Art. Sie beherrscht eine breite Palette an Stilen. Und sie beschert uns – Geduld und Geschick beim Prompten vorausgesetzt – realistische Resultate. In meiner Erfahrung ist sie aber ein störrisches kleines Eselchen: Sie stellt sich bockig und wir müssen oft viele Anläufe und Prompt-Variationen ausprobieren, um zu einem brauchbaren Motiv zu gelangen. Und in diversen Fällen hat mich dieses renitente Ding auch komplett im Stich gelassen. Es hat dann manchmal geholfen, ChatGPT auf den Plan zu rufen und per KI die entscheidenden Aspekte so explizit wie möglich formulieren zu lassen.

An dieser Stelle soll es jedoch nicht um mein persönliches Ungemach mit dieser generativen künstlichen Intelligenz gehen, sondern um deren Fähigkeiten bei der Bildbearbeitung.

In der Rubrik Edit stellt Midjourney eine Arbeitsumgebung bereit, in der wir ein Bild via Upload oder über einen Link platzieren. Wir haben eine Handvoll Werkzeuge zur Verfügung, mit denen wir dieses Ursprungsmotiv für die Veränderung vorbereiten. Mit dem Pinsel im Modus Erase entfernen wir Elemente, die im finalen KI-Motiv nicht enthalten sein sollen. Falls wir zu viel löschen, schalten wir auf Restore um und stellen die erwünschten Partien wieder her. Es gibt auch die Funktion Smart Select, die beim Prozess des Auswählens behilflich ist: Mit der geben wir über zwei Plus-Markierungen zwei Enden des fraglichen Objekts vor und die Software wählt den Bereich dazwischen aus. Das klappte bei meinen hier nachfolgend beschriebenen drei Studien ausgezeichnet.

1) Mona Lisa beim Fotografen

Im Editor wird das Motiv freigestellt.

Bei meinem Versuch mit Mona Lisa habe ich die Dame aus Leonardo da Vincis recht bekanntem Ölgemälde freigestellt, allerdings ohne mich gross mit einzelnen Pixeln aufzuhalten. Doch wie wir sehen, bügelt die KI derlei Schludrigkeiten aus; im finalen Bild ist von den unsauberen Rändern nichts zu sehen.

Meine Idee bestand darin, Mona Lisa zum Fotografen zu schicken. Ich habe die Zeichenfläche in alle Richtungen etwas ausgeweitet – was einfach über die Anfasser am rechten, linken, oberen und unteren Rand zu bewerkstelligen ist – und mit einem simplen Prompt angegeben, es solle ein Mann mit einer altmodischen Mittelformatkamera hinzugefügt werden¹. Zwei Varianten taugen etwas:

Die erste seht ihr als Beitragsbild. Mir gefällt, dass die KI sich bei der zumindest ansatzweise Mühe gibt, den Stil des Ursprungsmotivs zu imitieren. Natürlich erkennen wir sofort, dass die Farbgebung nicht übereinstimmt; die erfundenen Bereiche sind zu knallig und zu bunt und es fehlt auch an der Leinwandstruktur. Aber es ist originell, dass die künstliche Intelligenz den Original-Hintergrund als Gemälde hinter Mona Lisa platziert.

Anerkennung verdient Midjourney dafür, wie Kamera und Stativ auf Mittelalter getrimmt sind. Wenn es derlei Ausrüstung im 16. Jahrhundert schon gegeben hätte, dann hätte sie womöglich so ausgesehen. Abzüge müssen wir geben, weil der Fotograf das Teleobjektiv für ein Porträt benutzt und das fünf Zentimeter vor seinem Sujet aufbaut. So bekommt er höchstens einen unscharfen Pickel aufs Foto.

Die zweite Variante ist bezüglich Bildkomposition gelungener, aber hier passen die Zeitebenen nicht zusammen. Der Fotograf stammt in seiner Anmutung aus dem frühen letzten Jahrhundert, nicht aus der Renaissance.

Leonardo da Vinci war eigentlich Fotograf.

2) Marilyn in der modernen Stadt

Beim Experiment mit Andy Warhols Marilyn Monroe habe ich komplett auf die Freistellung verzichtet – mit dem Effekt, dass die KI tatsächlich nicht die Frau in eine neue Umgebung versetzt, sondern das Bild mit dem Originalrahmen in einer neuen Umgebung platziert². Das ist eine Überraschung, aber eine positive. Mir gefällt das Resultat gut, auch wenn sich die Farbpaletten von Warhol und Midjourney beissen und mir nicht klar ist, weswegen die flanierende Frau einen Schnauzbart trägt. Auch sonst sind die Stile inkompatibel: Midjourney liefert zu viele Details, trägt die Farbe zu wenig flächig auf und ist nicht expressiv genug. Abgesehen davon ist das Kaff, in dem diese Handlung spielt, zu provinziell.

Hier passt nichts zusammen – und trotzdem gefällt es irgendwie.

Trotzdem gefällt mir dieses Motiv. Es weckt Widerstand und die Vorstellung, dass sich an diesem Plakatmast ein Wurmloch vom einen Kunst-Paralleluniversum zu einem seiner Nachbarn auftut.

Die zweite Variante atmet einen Hauch New York. Die Idee wäre originell, wenn das Warhol-Bild so unscharf wäre, wie es im Hintergrund sein müsste. Aber da könnten wir mit Photoshop nachhelfen.

Das könnte so gewesen sein.

3) Die kiffende Katze im Casino

Die Katze mit Hut im Editor: Drei Bilder, separat freigestellt, ergeben das neue Motiv.

Beim dritten Anlauf experimentiere ich mit den Ebenen im Bearbeitungsbereich: Es ist möglich, ein Motiv aus mehreren Versatzstücken zusammenzupuzzeln.

Im Beispiel kommen drei Elemente zum Zug: Erstens natürlich das Katzenbild. Zweitens das Foto eines Damenhuts und drittens die Spezialzigarette. Alle drei Elemente habe ich mit dem oben beschriebenen Smart Select-Feature freigestellt. Das gibt uns die Freiheit, die Elemente zu verschieben, in der Grösse zu ändern, zu drehen und mit dem Arrangement zu spielen. Was mir fehlt, ist die Möglichkeit, Ebenen horizontal und vertikal zu spiegeln. Der Hut sähe vielleicht besser aus, würde er umgekehrt auf dem Kopf der Katze sitzen.

Das erste Bild entspricht nicht meinen Erwartungen³. Die KI nimmt nicht meine ganze Komposition als Vorlage. Ich finde heraus, dass ich die Hilfe zu den Ebenen hätte lesen sollen. Dort steht Folgendes:

Nachdem Sie Ihre Ebenen angeordnet und gelöscht haben, können Sie sie durch Übermitteln der Bearbeitung zu einer einzigen Ebene zusammenführen. Nach dem Zusammenführen können Sie weiter an dem Bild arbeiten oder es hochskalieren und herunterladen.

Wenn Sie eine Bearbeitung mit Ebenen übermitteln, werden nur die Bereiche Ihres Bildes mit sichtbarer Transparenz neu generiert (das graue Schachbrettmuster) – alle sichtbaren Teile bleiben unverändert. Um das gesamte Bild neu zu generieren, beispielsweise in einem einheitlichen Stil, verwenden Sie Retexture.

Ich lerne, dass ich für meine Bildkomposition mit drei Ebenen den Retexture-Modus verwenden muss. Und mit dem liefert Midjourney ein enorm befriedigendes Finale für diesen Blogpost. Natürlich, zu mäkeln gibt es auch hier: Ich habe mir eine Szene wie im Film Casino vorgestellt, doch von Scorsese ist weit und breit nichts zu sehen. Aber auch da könnten wir versuchen, ChatGPT den Prompt überarbeiten zu lassen. Und auf alle Fälle geben die Mankos Raum für weitere Experimente …

Ist sie nicht süss?
Als Casinodirektor würde dieses Motiv in meinem Büro hängen.

Fussnoten

1) Der Prompt:

This woman is posing for a photographer, who stands in front of her with his camera and takes her picture with an old fashion middle format camera. 

2) Der Prompt:

This woman is walking leisurely on a sidewalk in a modern city.

3) Der Prompt für das Katzenbild mit den drei Ebenen:

This cat is wearing a hat and smoking a joint, and still looking cute. It is sitting in a casino on a poker table surrounded by playing cards [in comic style].

Kommentar verfassen