Gestern habe ich die Wolf-Schneider-KI einem Test unterzogen. Die will Texte mithilfe von künstlicher Intelligenz verbessern: Sie macht Vorschläge fürs Redigieren. Im Idealfall ist das Endresultat leichter lesbar und besser verständlich. Wie mein ausführlicher Augenschein zeigt, ist das Resultat durchzogen.
Ich komme auf die Software zurück, weil sich während eines Testlaufs ein seltsames Phänomen ereignet hat. Die KI hat als Output ein Vielfaches an Text generiert, als sie als Input erhalten hat. Dieser zusätzliche Text war in Teilen zwar unzutreffend, aber auch nicht völlig daneben.
Es stellt sich die Frage: Was ist passiert und woher stammt dieser Text?
Aber konkret: Ich habe einen einzelnen Abschnitt aus einer Pressemeldung von Microsoft eingegeben, um zu sehen, wie ein PR-Text überarbeitet wird. Die KI, die auf Chat-GPT basiert, sollte durch Umschreiben ein Resultat ähnlicher Länge erzeugen. Doch sie hat mir neun Abschnitte zurückgeliefert, die viele Informationen enthalten, die im Original nicht vorhanden sind.
Zwei erfundene CEOs
Im Phantomtext erscheint ein Zitat von Dr. Markus Müller, der angeblich CEO des Luzerner Kantonsspital (LUKS) ist. Ich habe das nachgeprüft und bin hier auf Benno Fuchs als Vorsitzender der Geschäftsleitung gestossen. Zitiert wird auch Thomas Meier, der vermeintliche Geschäftsführer von Microsoft Schweiz. Aus der Original-Pressemeldung erfahren wir – falls wir es nicht wissen –, dass die hiesige Niederlassung des Konzerns von Catrin Hinkel geleitet wird.
Das könnte uns zum Schluss bringen, dass es sich um eine reine Erfindung handelt; um eine Halluzination, wie sie typisch ist für KIs. Doch im Text finden sich auch Abschnitte wie dieser hier:
Die KI-Lösung ermöglicht es dem LUKS, den Bedarf an Pflegefachkräften präzise zu prognostizieren und die Arbeitszeiten effizient zu planen. Durch die Analyse von Daten wie Patientenaufkommen, Behandlungszeiten und Mitarbeiterverfügbarkeit kann das Krankenhaus sicherstellen, dass immer ausreichend qualifiziertes Personal zur Verfügung steht, um eine optimale Versorgung der Patienten zu gewährleisten.
Ohne diese KI-Lösung zu kennen, klingt das für mich nach einer exakten Beschreibung, wie eine solche Software funktionieren würde. Doch Stichworte wie Patientenaufkommen oder Behandlungszeiten finden sich weder in der Pressemeldung von Microsoft noch in derjenigen des Luzerner Kantonsspitals oder in der von Polypoint.
Gut erfunden – oder geklaut?
Darum nochmals die Frage: Woher stammen diese Informationen? Ich halte es für möglich, dass ChatGPT Kenntnis von einem vergleichbaren Projekt hat, die in diese Rückmeldung hier eingeflossen sind.
Es gibt aber auch eine andere Erklärung: Eine Person, die an diesem Projekt beteiligt war, hat während ihrer Arbeit ChatGPT diese Informationen zur Verfügung gestellt. Der Bot hat sie sich gemerkt und sie bei meiner Abfrage pflichtbewusst zum Besten gegeben.
Darum: Ihr dürft KIs keine vertraulichen Informationen zur Verfügung stellen!
Das kann tatsächlich passieren: Sprachmodelle nutzen die Eingaben der User auch fürs Training. Auf diese Weise drangen interne Informationen von Samsung an die Öffentlichkeit, woraufhin der südkoreanische Konzern die Nutzung der KI verbot. Meine Empfehlung war daher schon vor ein einigen Wochen, keine sensiblen Informationen zu verwenden. Für derlei Zwecke müsste ein lokales Sprachmodell benutzt werden – oder aber der Enterprise-Zugang zur KI, bei dem strengere Datenschutzregeln zur Anwendung gelangen.
Welche Erklärung vorliegt, kann ich nicht beurteilen. Für mich klingt der Text zu spezifisch, um eine simple Halluzination zu sein. Dafür ist er auch zu ausführlich und klingt zu sehr nach einer echten Pressemeldung – auch wenn es genau die Fähigkeit der Imitation ist, die die Sprachmodelle zu dem machen, was sie sind.
Falls jemand aus der Leserschaft mit diesem Projekt vertraut ist und Licht ins Dunkle bringen kann, freue ich mich über eine Rückmeldung (gern auch direkt via E-Mail).
Beitragsbild: Ein Bild direkt aus der KI-Blackbox (Cottonbro Studio, Pexels-Lizenz).
LLMs sind sehr komplizierte Markov-Ketten. Sie haben Wahrscheinlichkeiten von Worten, Sätzen und Token gespeichert. Das sind die Milliarden von Parametern im Modell, und sie setzen diese Texte fort.
Pressemeldungen sind sehr formelhafte Texte, von denen das LLM außerdem wahrscheinlich Terabytes gelernt hat.
Natürlich kann ein LLM etwas generieren, das wie eine plausible Pressemeldung klingt, solange die einzelnen Fakten egal sind. Das ist genau genommen das einzige, was es kann. Da ist kein „Wissen“ vorhanden.