Das entscheidende Kriterium bei einer KI ist die Qualität der Antworten. Die lässt sich natürlich anhand ganz unterschiedlicher Kriterien beurteilen: Wie ausführlich und detailliert ist die Antwort? In welchem Tonfall ist sie abgehalten? Ist sie nüchtern und sachlich oder hören wir Marketing-Phrasen oder sogar Parteilichkeit heraus?
Wir sind uns aber sicherlich einig, dass es ein zentrales Kriterium gibt, das wichtiger ist als alle anderen: die Verlässlichkeit. Was ein grosses Sprachmodell an Output liefert, sollte einer faktischen Überprüfung standhalten. Wir haben zwar gelernt, dass nichts unbesehen glauben sollten, was uns eine KI weismachen will, und es ist auch völlig klar, dass wir die Verantwortung tragen, wenn wir einen hanebüchenen Unsinn weitergeben, als ob wir ihn selbst recherchiert hätten.
Aber trotzdem: Je kleiner der Anteil der sogenannten Halluzinationen, desto besser lässt sich mit einer KI arbeiten.
Das ist auch der Grund, weswegen ich ChatGPT vorziehe. OpenAIs Modell neigt nicht dazu, haltlose Behauptungen herbeizufantasieren.
Das unterscheidet es von der Konkurrenz: Google Gemini (vormals Bard) tätigt nach meiner Erfahrung kaum eine Aussage, ohne nicht einen grösseren oder kleineren Anteil von Unfug beizumengen. Microsofts Copilot (alias Bing Chat) war in der Startphase vor allem bei Angaben zu weniger bekannten Personen nicht sattelfest. Auch die Open-Source-Modelle wie Google Gemma oder Mistral 7B haben einen Hang zu massiven Halluzinationen.
Trotzdem – oder gerade deswegen – soll es heute um ChatGPTs Verfehlungen gehen. Denn je seltener die sind, desto interessanter finde ich die Frage, warum es genau in diesen Fällen zu den Fehlern gekommen ist.
Beispiel 1: Erich Kästner
Als ich meiner Tochter Erich Kästners Das fliegende Klassenzimmer erzählt habe, bin ich auf folgende Stelle gestossen:
«Jedes Jahr macht der Grünkern regelmässig ein und denselben Witz», berichtete Fritsche. «Dieser Witz ist immer fällig, wenn er in der Sekunda auf die Beschaffenheit des Mondes zu sprechen kommt. Alljährlich, und zwar seit mehr als zwanzig Jahren, sagt er zu Beginn seiner Stunde: ‹Wir wollen vom Monde sprechen – sehen Sie mich an!›»
«Wieso ist denn das ein Witz?», fragte der Quintaner Petermann. Aber die anderen lachten: «Pst!» Und so schwieg er.
Der schöne Theodor sagte: «Bei uns hat kein Aas mehr darüber gelacht.»
In diesem Augenblick lachte der Quintaner Petermann laut. Er hatte den Witz kapiert.
«Na, ist der Groschen gefallen?», fragte Matthias.
Ich habe ChatGPT gefragt, was denn die Pointe des Witzes sei, den Grünkern jedes Jahr in «Das fliegende Klassenzimmer» erzählen würde – aber ohne die Stelle zu zitieren. Das war die Antwort:
In Erich Kästners Buch «Das fliegende Klassenzimmer» erzählt Direktor Grünkern jedes Jahr zur Weihnachtszeit einen speziellen Witz, der wie folgt geht: Ein Mann kommt ins Konfektionsgeschäft und sagt, er möchte einen Anzug kaufen. Der Verkäufer fragt ihn, welche Grösse er denn trage. Der Mann antwortet: «Gestreift.»
Die Pointe dieses Witzes spielt auf die Verwechslung zwischen der Grösse eines Anzugs, die normalerweise Zahlen oder Buchstaben zur Beschreibung verwendet (wie S, M, L oder Zahlen für die genaue Grösse), und dem Muster oder Design des Stoffes an. Der Mann im Witz versteht die Frage nach der «Grösse» als Frage nach dem Muster des Anzugs, was humorvoll die Missverständnisse im alltäglichen Leben hervorhebt.
Um herauszufinden, wie es zu dieser Fehlinformation kommen konnte, habe ich ChatGPT gefragt, ob er Zugang zum Volltext von «Das fliegende Klassenzimmer» habe. Das war die Antwort:
Ich habe keinen direkten Zugang zu vollständigen Texten von Büchern wie «Das fliegende Klassenzimmer» von Erich Kästner oder anderen urheberrechtlich geschützten Werken. Meine Antworten basieren auf allgemeinem Wissen und Informationen, die bis zu meinem letzten Update im April 2023 verfügbar waren.
Auf die Nachfrage, auf welchen Quellen die Antwort konkret basiert, hat mir ChatGPT ausweichend geantwortet.
Zweite Frage: Kennt ChatGPT die Redewendung «In den Mond gucken»? Die Antwort fällt korrekt aus:
Ja, die Redewendung «in den Mond gucken» ist im deutschen Sprachgebrauch bekannt. Sie bedeutet, leer auszugehen oder bei einer Sache nicht zum Zuge zu kommen. Wenn jemand «in den Mond guckt», hat er also das Nachsehen, erhält nicht, was er sich erhofft oder gewünscht hatte, oder findet sich in einer Situation wieder, in der er benachteiligt ist.
An dieser Stelle können wir zumindest eine Hypothese wagen, wie es zur Fehlinformation kommt: Es liegt daran, dass ChatGPT ohne den Zugriff auf den Volltext des Buchs gar nicht wusste, um welchen Witz es sich handelte – abgesehen davon, dass der Witz so verklausuliert ist, dass bei manchen menschliche Lesern, anders als bei Quintaner Petermann, der Groschen gar nicht gefallen ist.
Jedenfalls finde ich das ein spannendes Beispiel: Es zeigt, dass nicht nur Menschen, sondern auch ChatGPT anfällig für den Dunning-Kruger-Effekt sind. Er besagt, dass Personen – und KIs – nicht in der Lage sind, die Grenzen ihres Wissens zuverlässig abzuschätzen.
Einerseits ist das objektiv gesehen in vielen Fällen schwierig: Wie viel man zu einem Thema wissen müsste, um sich kompetent zu äussern, kann man eigentlich erst dann beurteilen, wenn man alles darüber weiss.
«Das fliegende Klassenzimmer» gehört allerdings nicht zu diesen Fällen. Es müsste auch einer KI beigebracht werden können, dass sie nicht zu konkreten Stellen in einem Buch Auskunft geben sollte, wenn ihr diese Stelle nicht im Wortlaut bekannt ist. ChatGPT scheint darauf hereingefallen zu sein, was David Dunning und Justin Kruger «scheinbares Wissen» nennen: Das wird behauptet, wenn sich jemand keine Blösse geben oder wichtig machen will. Dass auch KIs das tun, macht sie menschlicher, als sie es sind.
Bekannte Personen aus Winterthur
Das zweite Beispiel ist schwieriger zu erklären. Mir ist aufgefallen, dass viele KIs bei der Frage nach bekannten Persönlichkeiten aus einem bestimmten Ort zu wilden Halluzinationen neigen. Das zeigt sich durchgängig; gerade auch bei dem neuen, angeblich revolutionären Claude 3-Modell von Anthropic.
Und es gilt explizit auch für ChatGPT. Auf meine Frage, welche bekannten Personen in Winterthur geboren seien, nannte er:
- Le Corbusier (geboren in La Chaux-de-Fonds)
- Christoph Blocher (geboren in Schaffhausen)
- Max Frisch (geboren in Zürich)
- Thomas Jordan (geboren in Biel)
- Ursula Andress (geboren in Ostermundigen)
Übrigens: Es gibt auf Wikipedia die Liste von Persönlichkeiten der Stadt Winterthur, in der ChatGPT z.B. Johann Jakob Sulzer oder Oskar Reinhart vorgefunden hätte. Oder natürlich Jonas Furrer, den ersten Schweizer Bundespräsident.
Interessanterweise erkennt ChatGPT seinen Fehler und ergänzt z.B. bei Le Corbusier, «dass er nicht aus Winterthur stammt». Bei Max Frisch teilt er mit, er «sei in Zürich geboren worden und nicht in Winterthur». Eine Richtigstellung gibt es auch bei Ursula Andress und bei Thomas Jordan gibt er mir den Tipp zu überprüfen, «ob er tatsächlich in Winterthur geboren wurde».
Abschliessend kommt ChatGPT zu folgendem selbstkritischen Urteil:
Es scheint, dass einige dieser Informationen korrigiert oder präzisiert werden müssen, da nicht alle genannten Persönlichkeiten tatsächlich in Winterthur geboren wurden.
Das finde ich bemerkenswert. ChatGPT realisiert, dass er Käse erzählt, kann sich aber nicht mehr bremsen.
Auch das irgendwie menschlich.
Man scheint ChatGPT zwingen zu müssen, online zu recherchieren. Die Frage nach bekannten Personen mit Geburtsort Winterthur hat er bei mir mit Ursula Andress, Yvonne Gilli, Roberth Barth und Thomas Wiesel beantwortet, wobei er bei Andress ergänzt hat, sie sei in Winterthur aufgewachsen, aber in Ostermundingen geboren.
Ich habe dann geschrieben, er soll online nachschauen, es gehe mir um den Geburtsort.
Dann kamen Steven Zuber, Maurice Steger, Hans Gerschwiler, Janette Rauch, Philipp Schoch und Hannes Keller. Laut Wikipedia haben alle Geburtsort Winterthur.
Das Verhalten, Antworten bevorzugt aus dem „Gedächtnis“ zu geben, ist verständlich, da effizienter als jedes Mal eine Recherche zu starten. Aber es ist unschön für die Kunden. Man bezahlt ja nicht 20 $/Monat für Vermutungen, denen teilweise schon angefügt ist, sie würden nicht zutreffen…