Hier im Blog mache ich mir einen Sport daraus, die Antworten von Sprachmodellen zu vergleichen. Es gibt dafür eine eigene Rubrik namens KI-Weltanschauungen. Als Massstab für die Bewertung ziehe ich jeweils meinen Bauch zurate. Sprich: Ich verlasse mich auf meine Eingebung und lege die Bewertung intuitiv fest. Als kritischer Zeitgenosse mag man sich fragen, ob das nicht systematisch(er) ginge.
Die Antwort ist natürlich ein Ja. Es gibt eine Methode aus der Wissenschaft, das RACCCA-Modell. Der Name ist ein Akronym für folgende Prüfaspekte:
-
Relevance (Relevanz)
Beantwortet das Sprachmodell die gestellte Frage oder verliert sie den roten Faden? -
Accuracy (Genauigkeit und Richtigkeit)
Sind die Fakten, Daten und Zahlen korrekt? -
Completeness (Vollständigkeit)
Umfasst die Antwort alle wesentlichen Informationen? Wurden Anforderungen aus dem Prompt ignoriert? -
Clarity (Klarheit)
Ist die Auskunft verständlich oder verschachtelt, umständlich, weitschweifig? -
Coherence (Kohärenz)
Ist die Aussage in sich schlüssig, logisch und frei von Widersprüchen? -
Appropriateness (Angemessenheit)
Ist der Tonfall angemessen und entspricht er dem vorgegebenen Kontext?
Erster Eindruck: Diese Kriterien sind nützlich, aber nicht völlig überraschend. Wenn wir sie mit der «Methode Bauchgefühl» vergleichen, stellen wir wahrscheinlich fest, dass das die Dimensionen sind, die wir intuitiv ebenfalls berücksichtigen. Und natürlich gibt es bei der Beurteilung in den einzelnen Kategorien dennoch einen Ermessensspielraum. Es bleibt dabei, dass die Bewertung eher der Note des Deutschlehrers für den Aufsatz entspricht als der Zensur in der Mathematik für die linearen Gleichungen.
Aus RACCCA wird RACCAQ
Das heisst allerdings nicht, dass es nicht sinnvoll wäre, sie schwarz auf weiss vor sich zu haben. Wir können uns dazu inspirieren lassen, die Matrix für bestimmte Zwecke anzupassen. Wir haben womöglich die Idee, die eine oder andere Dimension zu ergänzen. Bei meinen Sprachmodell-Vergleichen bewerte ich gern die Originalität. Zum Beispiel, wenn es darum geht, in den sozialen Medien den Dummschwäzern Paroli zu bieten. Die Vollständigkeit ist in solchen Fällen weniger wichtig, die Schlagfertigkeit dafür umso mehr – ergäbe das Modell RACCAQ, für Relevance, Accuracy, Clarity, Coherence, Appropriateness und Quick-wittedness.
Das Modell stammt von Andrew Maynard, der als Professor an der Arizona State University arbeitet und es hier selbst erklärt:
Wie Maynard erklärt, hilft die Methode auch beim gezielten Nachschärfen von Prompts, die nicht auf Anhieb das gewünschte Resultat liefern. Wir weisen auf die Schwachstelle hin und fordern das Sprachmodell auf, insbesondere die Tonalität anzupassen, exakter zu sein oder gezielter auf den Kern der Frage loszugehen.
Und natürlich können wir dieses Prinzip auf die Metaebene heben. Das heisst, wir bitten ein Sprachmodell, eine (eigene oder fremde) Antwort anhand von RACCCA (oder RACCAQ) zu überprüfen und zu verbessern. In manchen Fällen führt das zu einer spürbaren Verbesserung. ChatGPT und Gemini können wir auf diese Weise manchmal auf die Sprünge helfen. Gegen wilde Halluzinationen ist selbst Professor Maynard machtlos. Da ändert nicht einmal ein entsprechender Prompt etwas daran, dass das fantasierende Sprachmodell (ich schaue dich an, Apertus) sich voller Selbstbewusstsein in allen sechs Punkten eine ausgezeichnete Note gibt und sich nur zu minimalen Änderungen hinreissen lässt, die unter dem Strich kaum etwas verbessern.
