Juhuu, endlich habe ich es geschafft, eine KI mit den Inhalten meines Blogs und meines Artikelarchivs vertraut zu machen. Sie beantwortet Fragen anhand meiner gesammelten Texte:
- Sie hilft mir auf die Sprünge, wenn ich nicht mehr genau weiss, was ich zu einem bestimmten Thema geschrieben habe.
- Ich erhalte eine höchst komfortable semantische Suchmethode, bei der ich nicht auf exakte Suchbegriffe angewiesen bin.
- Und natürlich ist das auch einfach sehr cool!
Ich erkläre gleich, wie mir das gelungen ist – übrigens dank des Tipps von Manuel. Erst aber kurz der Hinweis auf meine beiden Anläufe, die nicht zum Ziel geführt haben:
- Der erste Versuch erfolgte über einen eigenen GPT. Diese Methode funktioniert, ist aber sterbenslangsam, weil ChatGPT für jeden Suchlauf die Daten neu auspackt und analysiert.
- Der zweite Kandidat war Notebook LM von Google. Das ist ein nützliches Instrument für die Auswertung eigener Inhalte, doch mein Datenbestand von rund 13’000 Artikeln sprengt dessen Kapazität.
Das Zauberwort heisst RAG (Retrieval-Augmented Generation)
Die Lösung für diese beiden Probleme ist ein RAG: Die Informationen werden mittels Chunking, Embedding und Indexierung so präpariert, dass das Sprachmodell optimal auf sie zugreifen kann. Manuels Empfehlung für diesen Zweck ist Msty: Eine Software für Windows, Mac und Linux für Sprachmodelle. Die können entweder lokal installiert werden (wie mit LM Studio und GPT4All) oder via API auch aus der Cloud genutzt werden.
Für meinen Versuch verwende ich Mistral Nemo. Das ist mit sieben Gigabyte einigermassen schlank und trotzdem anständig leistungsfähig. Zur Verfügung stehen auch Qwen3, Cogito, Deepseek R1, Llama 3.3, Phi 4 und einige weitere der üblichen Verdächtigen. Für die eigenen Daten klicken wir auf den Knopf Knowledge Stacks (erkennbar am Ordnersymbol) in der Leiste am linken Rand und auf Add new Knowledge Stack. Wir benötigen ein Embedding Model, wobei standardmässig Mixedbread Embed Large vorgeschlagen wird.
Daten exportieren und vektorisieren
Im nächsten Schritt fügen wir die Daten hinzu, die hinterher zur Verfügung stehen sollen. Es stellt sich die Frage, welches Format für meine Zwecke geeignet ist¹ und welche Aufbereitung zum Ziel führt. Meine Blogposts und Artikel stecken jeweils in einer Wordpress-Datenbank, was diverse Möglichkeiten eröffnet:

Der Einfachheit halber verwende ich das Wordpress-Plug-in All Export. Es liefert mit CSV ein passendes Format, und es erlaubt, alle nötigen Datenfelder auszuwählen. Im Fall meiner Artikel sind das ID, Datum, Permalink, Titel, Excerpt und Content. Man könnte auch Kategorien und eigene Felder übernehmen, aber für einen ersten Test beschränke ich mich aufs Nötigste. Ein nicht unwichtiges Detail besteht darin, dass sich mit All Export solche Vorgänge auch automatisieren lassen. Das ist entscheidend, wenn wir unser RAG regelmässig aktualisieren wollen.
Nach dem Export werden die beiden CSV-Dateien als Knowledge Stack hinzugefügt. Die Aufbereitung dauert ihre Zeit. Ich habe es versäumt, auf die Uhr zu schauen, aber am Macbook Pro M3 dauerte der Vorgang über den Daumen gepeilt eine gute Stunde.

Es klappt – mit Abstrichen
Nachdem die Vektorisierung erledigt ist, kommt der spannende Moment: Gibt Mistral die richtigen, d.h. auf meinen Texten basierenden Auskünfte? Wichtig ist, in der Leiste am unteren Rand, wo wir das LLM auswählen, via Knowledge Stack-Symbol unseren Datenbestand auszuwählen.
Und siehe da, es klappt: Meine Frage nach Lightroom-Alternativen beantwortet Mistral mit vier Programmen zur Bildverwaltung, die ich bei früheren Gelegenheiten vorgestellt habe. Die Antwort erfolgt zügig, womit wir festhalten können: Ein erstes Etappenziel ist erreicht.

Kommen wir zur Detailkritik:
Zitate: Gut gefällt mir, dass unter Citations unterhalb der Antwort die Textstellen aufgeführt sind, auf die sich die Antwort bezieht. Das erlaubt es, auf die Originalquelle zuzugreifen.
Quellenverweise: Die Zitate werden rudimentär aufbereitet. Es wird der Original-HTML-Code angezeigt; manchmal mit, meistens aber ohne Permalink. Für eine Suchmaschine im eigentlichen Sinn wünschen wir uns eine benutzerfreundlichere Ansicht, in der wir nur einen Link anklicken müssen, um den fraglichen Beitrag aufzurufen.

Antwortqualität: Die Auskunft ist okay, aber nicht überragend: Ich habe alle vier aufgeführten Programme im Kontext von Lightroom erwähnt², würde trotzdem nicht alle als direkte Alternativen empfehlen. Demgegenüber unterschlägt die KI auch mindestens neun RAW-Konverter, die ich im Blog explizit auf ihre Tauglichkeit als Lightroom-Ersatz abgeklopft habe³.
Vor allem dieser zweite Aspekt schmälert den Nutzen: Wir müssen davon ausgehen, dass uns die KI eine unvollständige Antwort liefert, die andere Schwerpunkte setzt, als wir es tun würden.
Das ist (vermutlich) erst der Anfang
Allerdings: Wenn uns das an dieser Stelle überrascht, dann unterliegen wir einem Grundlagenirrtum, was die künstliche Intelligenz angeht: Die hilft uns weiter, wenn wir Zeit sparen und uns einen groben Überblick zu einem Thema verschaffen wollen. Wenn eine Arbeit sorgfältig und in unserem Sinn erledigt werden soll, dann gibt es nur einen richtigen Weg: Wir machen sie selbst.
Fazit: Trotz der Einwände und Bedenken eine nützliche Sache! Ich werde sehen, welches Verbesserungspotenzial in Msty und meinem Knowledge Stack steckt. Gut möglich, dass ein anderes Sprachmodell bessere Resultate liefert und sich die Aufbereitung der Informationen mittels spezieller Instruktionen verbessern lässt. Falls ich spannende Erkenntnisse sammle, lest ihr die demnächst hier auf diesem Kanal!
Fussnoten
1) Msty akzeptiert die Formate PDF, CSV, MD, JSON, JSONL, Epub, Docx, RTF und TXT. ↩
2) Apple Aperture z.B. hier und hier, Picasa hier, Capture One Pro hier und Darktable hier. ↩
3) Luminar 4, Pixelmator, Exposure X4 von Alien Skin, Digikam, DxO PhotoLab, ACDSee, Raw Therapee, After Shot von Corel und ON1 Photo RAW, um nur einige zu nennen. ↩
Sehr schön erklärt! Und einen Bonuspunkt für das herzige Huhn auf dem Titelbild. 🙂