Seit letztem November gibt es in ChatGPT die Möglichkeit, eigene GPTs zu erstellen. Das sind, salopp gesprochen, abgerichtete Varianten des Sprachmodells, die eine bestimmte Aufgabe besonders gut erfüllen.
Der Bereich Explore GPTs, für den es das Plus-Abo für ChatGPT braucht, gibt einen Eindruck, was das für Aufgaben sein könnten: Travel Guide verabreicht Reisetipps und Math Solver hilft bei Matheproblemen. Meine Lieblings-Wissensdatenbank Wolfram Alpha stellt einen GPT¹ zur Verfügung. Und wir treffen auch auf einige Seltsamkeiten: AI Humanizer Pro hat die Bestimmung, KI-generierte Inhalte zu vermenschlichen.
Und Astrology Birth Chart GPT liest uns die Sterne: Darum weiss ich nun, dass bei mir der Merkur im Steinbock steht und ich deswegen hier im Blog so methodisch und präzise kommuniziere. Falls ihr euch gewundert haben solltet.
Darum geht es hier jedoch nicht – auch wenn ich mir die Bemerkung nicht verkneifen kann, dass es besser ist, sich hier gratis esoterischen Schindluder andrehen zu lassen, als das über eine überteuerte App zu tun.
Schreiben darf er nicht
Natürlich habe ich mich gefragt, was mein eigener GPT denn für mich tun könnte. Kann er eventuell Blogposts für mich schreiben? Ich habe einen halb ernsten Versuch unternommen und glücklicherweise das erhoffte Resultat erzielt: Nein, kann er nicht. Er trifft weder meinen sprachlichen Tonfall noch baut er Texte so auf, wie ich es tun würde. Er kommuniziert nicht so methodisch und präzise wie jemand, der den Merkur im Steinbock hat. Und meinen Humor besitzt er auch nicht.
Darum verfalle ich auf die Idee, ihn zu meinem Archivar zu machen. Dazu gehe ich wie folgt vor:
- Ich sage meinem GPT, dass ich ihm den Datenbestand dieses Blogs hier und von meinem Artikelarchiv zur Verfügung stelle und er und er sich die verinnerlichen soll.
- Dann lade ich den Inhalt der beiden Wordpress-Sites in Form von WXR-Dateien hoch (mehr zu diesem Format gibt es hier).
Und das ist schon alles. Erfreulicherweise nimmt ChatGPT die Dateien sogar in gezippter Form entgegen. Das ist gut zu wissen, falls das Grössenlimit von hundert MB pro Datei zum Problem werden sollte.
Wie man ChatGPT zum Husten bringt
Es fällt auf, dass die Antworten im Vergleich zu normalen Anfragen lange dauern. Das liegt anscheinend daran, dass der GPT den Datenbestand nicht «lernt», sondern jedes Mal neu parst. Im Fall der WXR-Datei meines Artikelarchivs beklagt er sich über ungültige Zeichen und lässt sich sosehr aus der Fassung bringen, dass er anstelle von Artikeln bloss ein paar Platzhalter zurückliefert.
Lässt sich das Verfahren korrigieren und beschleunigen? Ich unternehme einen Versuch mit dem Wordpress-Plugin WP All Export: Über das lässt sich steuern, was exportiert wird. Ich übernehme nur die zentralen Informationen (ID, Datum, Titel, Lead, Inhalt und Link) in die CSV-Datei.
Mit dieser Datei ist mein Archivar allerdings auch nicht glücklich. Er teilt mit, er könne das Datum nicht erkennen. Ich erkläre, wie die Datei aufgebaut ist, worauf sich die Resultate verbessern.
An dieser Stelle wird mir bewusst, dass nicht nur mein GPT auf dem Schlauch steht, sondern vor allem auch ich. Meine Methode von Versuch und Irrtum stammt noch aus jener Zeit, als es keine KIs gab. Die zeitgemässe Vorgehensweise besteht darin zu fragen, in welchem Format GPT die Daten gern hätte. Und siehe da: Er teilt mit, WXR sei völlig in Ordnung.
Mit dieser Erkenntnis wird mir auch klar, wie ich herausfinde, wo in auf meiner Website die ungültigen Zeichen stecken. Ich sage dem GPT, er solle mir die Stellen auflisten. Und wie erwartet, stecken sie in einigen der ganz alten Artikel, bei denen ich mir anscheinend nie die Mühe gemacht habe, die Codierung zu bereinigen (Details dazu siehe hier).
Mit dieser Einsicht ist jetzt ein doppeltes Fazit fällig:
1) Der Archivar erfüllt den Zweck – mit Vorbehalten
Wenn ich wissen möchte, in welchem Blogpost sowohl Steve Jobs als auch Bill Gates erwähnt wurden, kann er die gewünschte Antwort liefern (In memoriam Digitalk). Da die XML-Dateien bei jeder Anfrage neu geparst werden, dauert eine Recherche aber so lange, dass ich für simple Suchläufe weiterhin Google und die Wordpress-Suche verwenden werde.
Interessant ist GPT daher für Recherchen, die sich mit herkömmlichen Methoden nicht bewältigen lassen. Ein Beispiel für mehrere, die ich ausprobiert habe: «Gib mir die humorvollsten Blogposts zurück, indem du nach frechen oder saloppen Wörtern suchst.»
Die Resultatliste ist längst nicht über alle Zweifel erhaben. Sie enthält viele Beiträge, die eher schnoddrig denn humorvoll verfasst sind. Trotzdem: Als Vorauswahl ist sie brauchbar.
Der Teufel steckt im XML-Detail
Mein GPT liefert auch statistische Auswertungen. Er beantwortet u.a. die Frage, in welchem Monat ich wie viele Blogposts veröffentlicht habe. Die Analyse scheint für die Anfangszeit zu stimmen, doch für die letzten Jahre fällt die Zahl jeweils deutlich zu hoch aus. Mit der Aufforderung, die Blogposts eines Monats aufzulisten, wird der Sachverhalt klar: ChatGPT zählt nicht nur die Blogposts, sondern auch die Kommentare, Entwürfe und die hochgeladenen Medien mit – also jeden Datenbankeintrag aus dem fraglichen Monat.
Das bringt uns zum Fazit, dass so ein eigener GPT eine praktische Sache sein kann – aber auf gar keinen Fall als «tubelsicher» betrachtet werden darf: GPT behauptet zwar, wir könnten ihm einfach die WXR-Datei vorsetzen. Das sollten wir nicht unbesehen glauben. Es lohnt sich, die Daten zu bereinigen und aufs notwendige Minimum einzudampfen.
Es gibt ein weiteres Problem: Mein GPT ist nur so aktuell wie die WXR-Datei, die ihm zur Verfügung steht. Wenn für eine Abfrage auch die neuesten Blogposts berücksichtigt werden müssen, dann braucht es vorab ein Update des Datenbestands. Für grössere Recherchen ist das verkraftbar; für die spontane Nutzung zu mühsam.
2) Für Daten-Diagnosen Gold wert
Aus Sicht des Website-Betreibers ergibt sich eine interessante Einsatzmöglichkeit: Per GPT lassen sich einfach Inkonsistenzen diagnostizieren. Die Codierungsprobleme würden sich natürlich auch mit einem Hex-Editor finden. Aber ChatGPT die WXR- oder auch den SQL-Dump vorzusetzen und ihn nach problematischen Stellen zu fragen, ist um Welten einfacher.
Fussnoten
1) Welches Geschlecht hat GPT? Ich habe mich für männlich entschieden, da das Kürzel für Generativer vortrainierter Transformer steht und ein Transformer auch ein Wandler ist, also ein Er. ↩
Beitragsbild: Respektive zur Daten-Mineurin. Aber sie kommt auch ChatGPT eh nicht heran (National Cancer Institute, Unsplash-Lizenz).
Ich hatte dasselbe gemacht, mein Blog-Archiv ist aber deutlich kleiner. Versuche mal, basierend auf dem Archiv einen Artikel schreiben zu lassen!
Ich htte Stichworte vorgegeben und geprompted, er soll daraus einen Artikel im Stil meiner früheren Blogposts schreiben. Das hat so mittelmässig funktioniert, er bevorzugt wohl trotzdem sein trainiertes Wissen.