Das Huhn heisst natürlich Mistral (Alex P, Pexels-Lizenz).

Wie wir eine KI mit unseren eigenen Informationen füttern

So bringen wir ein Sprach­modell dazu, uns Aus­künf­te an­hand eigener In­for­ma­tio­nen zu er­tei­len: Wir stel­len ein so­ge­nann­tes RAG her. Hier die detail­lier­te Anleitung, wie es mit Msty und einem lo­ka­len LLM funk­tio­niert.

Juhuu, endlich habe ich es geschafft, eine KI mit den Inhalten meines Blogs und meines Artikelarchivs vertraut zu machen. Sie beantwortet Fragen anhand meiner gesammelten Texte:

  • Sie hilft mir auf die Sprünge, wenn ich nicht mehr genau weiss, was ich zu einem bestimmten Thema geschrieben habe.
  • Ich erhalte eine höchst komfortable semantische Suchmethode, bei der ich nicht auf exakte Suchbegriffe angewiesen bin.
  • Und natürlich ist das auch einfach sehr cool!

Ich erkläre gleich, wie mir das gelungen ist – übrigens dank des Tipps von Manuel. Erst aber kurz der Hinweis auf meine beiden Anläufe, die nicht zum Ziel geführt haben:

Das Zauberwort heisst RAG (Retrieval-Augmented Generation)

Die Lösung für diese beiden Probleme ist ein RAG: Die Informationen werden mittels Chunking, Embedding und Indexierung so präpariert, dass das Sprachmodell optimal auf sie zugreifen kann. Manuels Empfehlung für diesen Zweck ist Msty: Eine Software für Windows, Mac und Linux für Sprachmodelle. Die können entweder lokal installiert werden (wie mit LM Studio und GPT4All) oder via API auch aus der Cloud genutzt werden.

Für meinen Versuch verwende ich Mistral Nemo. Das ist mit sieben Gigabyte einigermassen schlank und trotzdem anständig leistungsfähig. Zur Verfügung stehen auch Qwen3, Cogito, Deepseek R1, Llama 3.3, Phi 4 und einige weitere der üblichen Verdächtigen. Für die eigenen Daten klicken wir auf den Knopf Knowledge Stacks (erkennbar am Ordnersymbol) in der Leiste am linken Rand und auf Add new Knowledge Stack. Wir benötigen ein Embedding Model, wobei standardmässig Mixedbread Embed Large vorgeschlagen wird.

Daten exportieren und vektorisieren

Im nächsten Schritt fügen wir die Daten hinzu, die hinterher zur Verfügung stehen sollen. Es stellt sich die Frage, welches Format für meine Zwecke geeignet ist¹ und welche Aufbereitung zum Ziel führt. Meine Blogposts und Artikel stecken jeweils in einer Word­press-Datenbank, was diverse Möglichkeiten eröffnet:

Das Plug-in All Export stellt die gesammelten Artikel und Blogposts für Msty zur Verfügung.

Der Einfachheit halber verwende ich das Word­press-Plug-in All Export. Es liefert mit CSV ein passendes Format, und es erlaubt, alle nötigen Datenfelder auszuwählen. Im Fall meiner Artikel sind das ID, Datum, Permalink, Titel, Excerpt und Content. Man könnte auch Kategorien und eigene Felder übernehmen, aber für einen ersten Test beschränke ich mich aufs Nötigste. Ein nicht unwichtiges Detail besteht darin, dass sich mit All Export solche Vorgänge auch automatisieren lassen. Das ist entscheidend, wenn wir unser RAG regelmässig aktualisieren wollen.

Nach dem Export werden die beiden CSV-Dateien als Knowledge Stack hinzugefügt. Die Aufbereitung dauert ihre Zeit. Ich habe es versäumt, auf die Uhr zu schauen, aber am Macbook Pro M3 dauerte der Vorgang über den Daumen gepeilt eine gute Stunde.

Unsere eigenen Informationen fliessen in einen Knowledge Stack ein.

Es klappt – mit Abstrichen

Nachdem die Vektorisierung erledigt ist, kommt der spannende Moment: Gibt Mistral die richtigen, d.h. auf meinen Texten basierenden Auskünfte? Wichtig ist, in der Leiste am unteren Rand, wo wir das LLM auswählen, via Knowledge Stack-Symbol unseren Datenbestand auszuwählen.

Und siehe da, es klappt: Meine Frage nach Lightroom-Alternativen beantwortet Mistral mit vier Programmen zur Bildverwaltung, die ich bei früheren Gelegenheiten vorgestellt habe. Die Antwort erfolgt zügig, womit wir festhalten können: Ein erstes Etappenziel ist erreicht.

Die Antwort, die Mistral anhand meiner Blogposts erteilt.

Kommen wir zur Detailkritik:

Zitate: Gut gefällt mir, dass unter Citations unterhalb der Antwort die Textstellen aufgeführt sind, auf die sich die Antwort bezieht. Das erlaubt es, auf die Originalquelle zuzugreifen.

Quellenverweise: Die Zitate werden rudimentär aufbereitet. Es wird der Original-HTML-Code angezeigt; manchmal mit, meistens aber ohne Permalink. Für eine Suchmaschine im eigentlichen Sinn wünschen wir uns eine benutzerfreundlichere Ansicht, in der wir nur einen Link anklicken müssen, um den fraglichen Beitrag aufzurufen.

Der Verweis auf eine der verwendeten Quellen.

Antwortqualität: Die Auskunft ist okay, aber nicht überragend: Ich habe alle vier aufgeführten Programme im Kontext von Lightroom erwähnt², würde trotzdem nicht alle als direkte Alternativen empfehlen. Demgegenüber unterschlägt die KI auch mindestens neun RAW-Konverter, die ich im Blog explizit auf ihre Tauglichkeit als Lightroom-Ersatz abgeklopft habe³.

Vor allem dieser zweite Aspekt schmälert den Nutzen: Wir müssen davon ausgehen, dass uns die KI eine unvollständige Antwort liefert, die andere Schwerpunkte setzt, als wir es tun würden.

Das ist (vermutlich) erst der Anfang

Allerdings: Wenn uns das an dieser Stelle überrascht, dann unterliegen wir einem Grundlagenirrtum, was die künstliche Intelligenz angeht: Die hilft uns weiter, wenn wir Zeit sparen und uns einen groben Überblick zu einem Thema verschaffen wollen. Wenn eine Arbeit sorgfältig und in unserem Sinn erledigt werden soll, dann gibt es nur einen richtigen Weg: Wir machen sie selbst.

Fazit: Trotz der Einwände und Bedenken eine nützliche Sache! Ich werde sehen, welches Verbesserungspotenzial in Msty und meinem Knowledge Stack steckt. Gut möglich, dass ein anderes Sprachmodell bessere Resultate liefert und sich die Aufbereitung der Informationen mittels spezieller Instruktionen verbessern lässt. Falls ich spannende Erkenntnisse sammle, lest ihr die demnächst hier auf diesem Kanal!

Fussnoten

1) Msty akzeptiert die Formate PDF, CSV, MD, JSON, JSONL, Epub, Docx, RTF und TXT.

2) Apple Aperture z.B. hier und hier, Picasa hier, Capture One Pro hier und Darktable hier.

3) Luminar 4, Pixelmator, Exposure X4 von Alien Skin, Digi­kam, DxO PhotoLab, ACDSee, Raw Therapee, After Shot von Corel und ON1 Photo RAW, um nur einige zu nennen.

Ein Kommentar zu «Wie wir eine KI mit unseren eigenen Informationen füttern»:

Kommentar verfassen