Wie bringt man einen KI-Bildgenerator dazu, Bilder in fotorealistischer Qualität zu erzeugen? Diese Frage hat sich mir neulich gestellt, als ich einen Artikel zur Erkennung ebendieser Bilder geschrieben habe und meine Tipps anhand konkreter Beispiele überprüfen wollte.
Es zeigt sich, dass das gar nicht so einfach ist. Die Stichworte fotorealistisch, hyperrealistisch und extrem detailreich allein reichen nicht. Auch mit dieser Vorgabe sind die allermeisten Resultate auf den ersten Blick als künstlich zu erkennen. Ich habe nachgeforscht und bin auf zwei Erfolgsfaktoren gestossen:
- Es braucht das passende Modell
- Und einen ausführlichen Prompt mit einer exakten Beschreibung der Bildwirkung
Zuerst zum Prompt: Bei der Beschreibung des gewünschten Bildes geben wir an, dass das Bild auf Flickr für Furore sorgen soll oder für eine Fotoausstellung gedacht ist. Damit es möglichst fotografisch wirkt, geben wir die gewünschten «Aufnahme»-Parameter an, etwa Blende 2,0 und Brennweite 35 mm. Und manche «Prompt Engineers» nennen sogar einen Fotografen, an dessen Werk sich die KI orientieren soll. Steve McCurry ist einer, der mir bei meinen Nachforschungen zum perfekten Prompt mehrmals begegnet ist.
Diese Methode funktioniert nicht bei allen Bildgeneratoren gleich gut: Dall-e erzeugt keine Bilder im Stil lebender Fotokünstler, natürlich aus Angst vor Urheberrechtsverletzungen. Als Notlösung verlangen wir stattdessen ein Bild im Stil eines «berühmten Porträtfotografen».
Stable Diffusion mit mehr Einflussmöglichkeiten
Nebst Dall-e habe ich auch die Möglichkeiten in der Open-Source-Software Stable Diffusion ausgelotet. Die betreibe ich mit der Software Draw Things auf dem Macbook Pro M3. Mit der haben wir deutlich mehr Einflussmöglichkeiten als bei Dall-e oder anderen kommerziellen KIs wie Firefly von Adobe: Die Angabe von Fotografen wird nicht verweigert, und wir können auch einen negativen Prompt formulieren: Dieser gibt an, was alles nicht im Bild enthalten sein soll. Ich habe einen ellenlangen negativen Prompt gefunden, der alles aufzählt, was in einem fotorealistischen Bild nichts verloren hat: ein Puppen- oder 3D-Game-Look, fehlende Gliedmassen, etc.
In Stable Diffusion können wir ausserdem mit verschiedenen Modellen arbeiten, die anhand unterschiedlicher Daten trainiert wurden und entsprechend sehr verschiedene Resultate ergeben. Für den nachfolgenden Vergleich habe ich denselben Prompt¹ mit allfällig notwendigen Modifikationen und, wo möglich, den aus dem Internet «ausgeliehenen» negativen Prompt² verwendet. In Draw Things habe ich ausserdem den Strength-Regler auf 70 Prozent gezogen: Er sorgt dafür, dass sich die KI weniger künstlerische «Freiheiten» nimmt als mit der Standardeinstellung
Das sind die Resultate, sortiert nach ihrem Realitätsgrad, den ich hier subjektiv beurteile.
1) Adobe Firefly: Ja! Aber!
Dieses Bild erfüllt viele der Anforderungen: Es ist so realistisch, dass wir schon genau hinsehen müssen, um es als künstlich zu erkennen. Mich irritiert das Gebiss ein wenig – aber ohne, dass ich das genau festmachen könnte. Die Stadt im Hintergrund könnte Zürich sein, was sich wegen der geringen Schärfentiefe nicht abschliessend beurteilen lässt. Die Flagge hinter dem Kopf der Frau gibt Rätsel auf – das ist weder die Schweizerfahne noch die von Zürich.
Das offensichtliche Manko liegt natürlich darin, dass die Frau nicht aussieht wie Emilia Clarke. Wir dürfen annehmen, dass die Adobe die Persönlichkeit der Schauspielerin schützen will – was auch völlig berechtigt ist.
2) Stable Diffusion mit RealVisXL v4.0: Ab in die Vergangenheit
Das Modell RealVisXL v4.0 ist ein ziemlicher Brummer; insgesamt fast sechs Giga gross. Es verspricht fotorealistische Qualität und liefert die auch. Bei meinem Testprompt – der für dieses Experiment nicht weiter modifiziert wird – ist das Resultat gut, aber nicht überragend: Das Gesicht der Frau wirkt überzeugend und auch die Lichtstimmung gefällt. Es ist aber offensichtlich, dass dieses Modell nichts mit Emilia Clarke anfangen kann und mit Game of Thrones auch nicht. Ich nehme an, dass diese Referenz dazu geführt hat, dass dieses Bild nun einen mittelalterlichen Touch hat, speziell, was die Kleidung der Frau angeht.
Und wir brauchen nicht darüber zu diskutieren, dass die Stadt im Hintergrund nicht Zürich ist. Vielleicht Bünderland oder Jura?
3) Stable Diffusion mit Juggernaut XL v9: Gabs im Mittelalter Lippenstift?
Auch das Modell Juggernaut XL v9 verspricht eine realistische Darstellung – und liefert sie auch. Die Stadt im Hintergrund finde ich deutlich besser gelungen als bei der RealVisXL-Variante: Wenn das Matterhorn im Hintergrund nicht wäre, könnte man das tatsächlich für Zürich halten – wenngleich ebenfalls mittelalterlich angehaucht.
Ich habe es auf Platz drei sortiert, weil ich das Gesicht der Frau nicht ganz so gelungen finde: Die Hautunreinheiten sind etwas weniger gelungen als bei der ersten Variante und die Haube entspricht nicht meinen Vorstellungen. Auch die dürfte ihren Ursprung wiederum bei dem Hinweis auf «Game of Thrones» haben, der zu einem monarchischen Umfeld führt.
Wir lernen daraus, dass solche Referenzen – wenn die Software sie nicht kennt – in eine falsche Richtung führen. Ich hätte sie am besten komplett gestrichen.
Allgemein lernen wir an dieser Stelle, dass der gleiche Prompt je nach Software unterschiedliche Resultate zeigt und es nicht den einen richtigen Weg gibt.
4) Midjourney: die Akzeptanzlücke klafft noch immer
Midjourney landet mit dem Bild einer sympathischen jungen Frau auf Platz vier. Bei einem flüchtigen Blick überzeugt diese Kreation. Doch schauen wir genauer hin, dann stellt sich ein Gefühl der Irritation ein, das sich nicht wirklich festmachen lässt. Sind es die Gesichtszüge, die etwas zu puppenhaft wirken? Ist es das Licht im Gesicht, das nicht hundertprozentig zur Situation passt? Sind die Details zu scharf gezeichnet, um unserer Alltagswahrnehmung zu entsprechen?
Dieses vage Gefühl wird gern als Uncanny Valley bezeichnet; die deutsche Bezeichnung «Akzeptanzlücke» gefällt mir dafür gut. Ich kann dieses Bild nicht als echt akzeptieren, auch wenn die Lücke im Vergleich zu den Bildern, wie sie noch vor einem halben oder ganzen Jahr erzeugt worden sind, sicherlich schmaler geworden ist.
5) Dall-e (GPT 4o): Zu glatt, um echt zu sein
Diese Frau hat eine recht deutliche Ähnlichkeit mit Emilia Clarke. Die Bildkomposition ist ungefähr so, wie gefordert. Trotzdem wirkt das Bild selbst auf den ersten Blick künstlich – das könnte der Screenshot aus einem 3D-Game sein, aber keinesfalls ein Bild, das an einer Ausstellung zu sehen ist.
Es gibt auch diverse Unstimmigkeiten: Sehr viele Tramschienen nebeneinander, wobei eine rechts plötzlich zu verschwinden scheint. Die Schweizerfahne links ist auch nicht über alle Zweifel erhaben.
6) Stable Diffusion mit Dreamshaper v8: Das dreifache Lottchen
Dreamshaper ist in der Fantasy-Welt angesiedelt. Auch in diesem Kontext sollten Bilder mit hohem Detailgrad möglich sein. Bei meinem Experiment ist etwas gründlich schiefgegangen. Was, ist mir auf Anhieb nicht klar: Zwar scheint dieses Modell Emilia Clarke aus «Game of Thrones» zu kennen, weil eine junge blonde Frau erscheint. Jedoch ist mir nicht klar, wie die Verdreifachung entstanden ist. Und von Zürich ist hier weit und breit nichts zu sehen.
7) Stable Diffusion mit Generic v. 2.1: Danke, aber nein danke
Über diese wirre, dadaistische Kreation sollten wir keine weiteren Worte verlieren. Nur vielleicht das noch: Wer überlegt, ob die KI sein Auto steuern oder den Operationsroboter bedienen sollte, der müsste sich dieses «Werk» hier noch einmal vor Augen führen.
Ein Nachtrag: Ich habe auch das derzeit viel bejubelte Modell Flux ausprobiert. Bei meinem Test kamen nur Abstürze, Hänger und unkenntliche Pixelhaufen heraus.
Fussnoten
1) Award winning portrait of a woman resembling Emilia Clarke in «Game of Thrones» by photographer Steve McCurry for a renowned photo exhibition, 35mm, F/2.8, lens flare and nice depth of field, extremely detailed, with minor imperfections on skin and in landscape, aspect ratio wide (4:3), in a city environment that resembles Swiss town Zurich, people around, woman looking straight in to the camera from a close distance, smiling garded ↩
2) 3d, render, cgi, doll, painting, fake, cartoon, 3d modeling:1.4), (worst quality, low quality:1.4), monochrome, child, deformed, malformed, deformed face, bad teeth, bad hands, bad fingers, bad eyes, long body, blurry, duplicated, cloned, duplicate body parts, disfigured, extra limbs, fused fingers, extra fingers, twisted, distorted, malformed hands, mutated hands and fingers, conjoined, missing limbs, bad anatomy, bad proportions, logo, watermark, text, copyright, signature, lowres, mutated, mutilated, artifacts, gross, ugly,unnatural face, unnatural body,imperfect eyes, bad lips , blurred lips, (((elongated neck))), (((2 girls))), 2 people, (((asymmetric eyes))), EasynegativeV2, ng_deepnegative_v1_75t, verybadimagenegative_v1.3, 4 eyes, (((double head))), (((long neck))), (((out of frame))), (((cropped head))), verybadimagenegative_v1.3, ng_deepnegative_v1_75t, (ugly face:0.8), cross-eyed, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, skin spots, acnes, skin blemishes, bad anatomy, DeepNegative, facing away, tilted head, {Multiple people}, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worstquality, low quality, normal quality, jpegartifacts, signature, watermark, username, blurry, bad feet, cropped, poorly drawn hands, poorly drawn face, mutation, deformed, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, extra fingers, fewer digits, extra limbs, extra arms, extra legs, malformed limbs, fused fingers, too many fingers, long neck, cross-eyed, mutated hands, polar lowres, bad body, bad proportions, gross proportions, text, error, missing fingers, missing arms, missing legs, extra digit, extra arms, extra leg, extra foot, ((repeating hair)), food on plates , food ↩
Beitragsbild: Eine Variante des Beispiel-Prompts, bei dem die Frau auf einem Drachen reitet – von Sieger dieses Wettbewerbs, Adobe Firefly.