Mit Stable Diffusion ans Eingemachte

Eine An­leitung wie wir Stable Dif­fusion-Model­le über die Mac-App Draw Things auf der eigenen Hard­ware betrei­ben und bis zum An­schlag aus­reizen.

Draw Things ist eine Mac-Anwendung, die es erlaubt, per KI Bilder zu generieren. Sie tut das nicht via Cloud, sondern auf der eigenen Hardware. Sie verwendet dazu die Modelle von Stable Diffusion, die bekanntlich Open-Source sind.

Es gibt Draw Things kostenlos im Mac-App-Store. Es gibt auch Varianten fürs iPhone und iPad. Ich habe so meine Zweifel, ob es sinnvoll ist, diese Aufgabe den mobilen Geräten zuzumuten. Natürlich: die haben inzwischen auch sehr leistungsfähige Prozessoren. Aber da die Modelle sehr viel Platz brauchen und die Erzeugung der Bilder rechenintensiv ist, scheint mir ein Gerät wie das Macbook Pro M3, das ich als Testgerät zur Verfügung habe, für derlei Experimente besser geeignet.

Die Qual der Modell-Wahl

Die Arbeit mit Draw Things funktioniert genauso, wie wir es mit anderen lokalen KI-Modellen kennen, seien es Chatbots in LM Studio oder die Transkriptionssoftware Macwhisper: Wir installieren die Software, die sogleich nach einem Modell verlangt: Das enthält mehr oder weniger und teils unterschiedliche Trainingsdaten und ist fürs Resultat verantwortlich. Es beeinflusst auch die Zeit, die fürs Erstellen eines Bildes benötigt wird.

Bitte experimentieren! Die Oberfläche von Draw Things.
Bevor es losgeht, müssen wir aus mehreren Dutzend Modellen eines auswählen.

Das ist die erste Herausforderung: In Draw Things stehen 19 offizielle Modelle und mehrere Dutzend Community Models zur Auswahl. Bei manchen lässt sich anhand des Namens erahnen, was die Spezialität sein könnte; es gibt aber auch viele Modelle mit nichtssagenden Namen. Also einfach auf gut Glück loslegen?

Das Problem dabei ist, dass die Modelle meist mindestens fünf Gigabyte gross sind und das Laden entsprechend dauert. Ich empfehle darum, mit einem der offiziellen Modelle loszulegen. Die tragen SDXL im Namen (kurz für Stable Diffusion XL) und die Variante SDXL Turbo ist dennoch einigermassen schnell.

Die Stable-Diffusion-Modelle, auch die aus der Community, finden sich allesamt auf Huggingface. Das ist die grosse Plattform, auf der sich KI-Entwicklerinnen und -Interessierte austauschen. Wenn wir uns also fragen, was das Modell Juggernaut XL v9, Elden Ring Diffusion oder Spider Verse Diffusion so besonders macht, dann finden wir das hier heraus.

Nachdem wir uns für ein Modell entschieden und es heruntergeladen haben, funktioniert die Sache wie gewohnt: Wir geben unseren Prompt ein und warten, was die Software daraus macht.

Bilder generieren, bearbeiten und modifizieren

Der genau gleiche Prompt – der von elektrischen Schafen und dem träumede Android –, aber mit zwei verschiedenen Modellen erzeugt: Links SDXL Base (v1.0), rechts DreamSjhaper v8.

Sogleich machen sich einige Unterschiede zum klassischen, webbasierten Erstellungsprozess bemerkbar:

  • Bei Draw Things haben wir jede Menge Einstellungsmöglichkeiten zur Verfügung. Einige davon erschliessen sich von selbst, beispielsweise die Bildgrösse in Pixeln, das Seitenverhältnis oder die Text Guidance: Sie gibt an, wie wörtlich die Software den Prompt nehmen soll. Andere Dinge – z.B. Strength, Lora und Seed – erschliessen sich nur durch Experimente.
  • Wir können den gleichen Prompt mit verschiedenen Modellen ausführen.
  • Nebst dem Modus Text to Image gibt es auch Image to Image: Bei dem geben wir der App ein Bild vor, das sie dann gemäss dem Prompt modifizieren soll.
  • Die App kann nicht nur Bilder erzeugen, sondern stellt auch Bildbearbeitungsfunktionen wie Inpainting und Outpainting zur Verfügung: Im ersten Fall wird ein Teil eines Fotos oder KI-Bildes mit dem Pinsel gelöscht und dann per KI neu generiert. Im zweiten Fall vergrössert die Software das Bild, indem sie ausserhalb des Bildbereichs eine Umgebung dazu erfindet.
  • Stable Diffusion generiert nicht nur Standbilder, sondern auch Video. Über Draw Things lassen sich auch Modelle für Bewegtbild einbinden.
  • Und last but not least: Es werden keine Prompts zensuriert. Das heisst, es lassen sich auch nackte Menschen generieren.
Die Image-to-Image-Funktion: Links das Ausgangsbild, rechts die Comic-Variante mit Raumschiffen in der Luft. Und nein, sonderlich toll finde ich das Resultat nicht.

Kurz: Da tut sich ein riesiges Tummelfeld auf für Leute, die sich nicht mit dem erstbesten Resultat ihrer Bilder-KI zufriedengeben. Und kein Zweifel: Die Experimentiermöglichkeiten helfen uns dabei, die Funktionsweise von Stable Diffusion und den generativen künstlichen Intelligenzen besser zu verstehen und gezielter einsetzen zu können.

Wer Stable Diffusion nutzen möchte, aber keine passende Hardware hat, der findet in Leonardo eine vielversprechende Möglichkeit. Die stelle ich im Beitrag Da Vinci würde sich (vermutlich) im Grab umdrehen ausführlich vor.

Beitragbild: Die Schöpferin, die sich an ihrem Computer neue Welten ausdenkt (Stable Diffusion mit dem Dreamshaper-Modell).

Kommentar verfassen