Ein offenes Notizbuch mit handschriftlichen Notizen liegt auf einem Tisch. Daneben liegt ein Kugelschreiber und eine Brille. Im Hintergrund ist ein Laptop zu sehen.
Das hilft bei der Recherche: Genau hinschauen bei den Quellen und die Ergebnisse fein säuberlich dokumentieren (Dan Dimmock, Unsplash-Lizenz).

Keine Halluzinationen, keine Fake News: Eine Anleitung, um mit KI online zu recherchieren

«Wie stellst du es an, von der KI nicht an­ge­logen zu werden?» Die Ant­wort lautet, den Prompt nach allen Regeln der Kunst so zu for­mu­lie­ren, dass die KI sich auf Quellen stützt, die zu­ver­läs­sig und sinn­voll und zu unserer Re­cherche passen.

Wie bringt man ein Sprachmodell dazu, eine verlässliche und brauchbare Antwort zu liefern?

1) Die blinden Flecken der KI kennen

Wichtig ist als Erstes natürlich die Abschätzung, ob die künstliche Intelligenz die richtige Anlaufstelle ist. Die Masse an Informationen, die den grossen Sprachmodellen zur Verfügung steht, ist gigantisch. Trotzdem ist sie endlich – und es existieren riesige dunkle Flecken. Also, machen wir uns als Erstes bewusst, wo die schlecht erschlossenen Bereiche liegen:

  1. Analoge und abgeschottete Inhalte
    Viel wertvolles Wissen liegt hinter einer Bezahlschranke oder war nie online: Ältere Zeitungen, Firmeninterna, historische Dokumente.
  2. Aktuelles und ungefestigtes Wissen
    An der «blutigen Kante» schneidet man sich leicht, wenn man sich auf die KI verlässt. Über laufende Entwicklungen weiss die KI oft nicht Bescheid; die Modelle ohne Webzugang haben einen eingefrorenen Wissensstand.
  3. Regionale und sprachliche Randbereiche
    Alle die Bereiche, die im Web nicht gut erschlossen sind, entziehen sich oft auch den Sprachmodellen: kleinräumige Gebiete, Dialekte, lokale Kontexte und Milieus. Umgekehrt ist Englisch massiv überrepräsentiert.
  4. Implizites Erfahrungswissen
    Man spricht auch von tacit knowledge oder implizitem Wissen. Man – also Mensch – «weiss es einfach», ohne dass man es irgendwo nachschlagen müsste.
  5. Privates und Persönliches
    Nicht über jede Person steht etwas im Internet. Ausserdem haben Sprachmodelle notorisch Mühe, damit zu verstehen, dass man Personen anhand des Namens nicht eindeutig unterscheiden kann, besonders, wenn sie Paul Meier oder John Miller heissen.
  6. Verzerrte oder einseitige Datenräume
    In manchen Wissensbereichen finden starke Beeinflussungsversuche durch PR, politische Parteien, Lobbyisten statt, die sich zu Informationskriegen auswachsen können. Welchen Einfluss die Versuche aufs Informationsangebot im Web haben, Suchmaschinen zu optimieren bzw. zu manipulieren, dokumentiere ich laufend hier im Blog. Im Bereich der KI nennt man das LLM-Grooming oder AI grooming.
  7. Sprachlich schwer erfassbare Sachverhalte
    Nicht alle Dinge lassen sich gut in Worte fassen. Akustische, haptische oder sensorische Eindrücke, Gefühle, Schmerz und Ähnliches. Natürlich kann die KI solche Dinge anhand der Informationen abbilden, die im Netz darüber geschrieben wurden. Aber hier wird besonders klar, dass es sich immer um Eindrücke aus dritter Hand handelt.

Wenn wir uns dieser Grenzen bewusst sind, reduzieren wir das Risiko deutlich, auf Halbwissen hereinzufallen, das uns ein Sprachmodell im Brustton der Überzeugung präsentiert.

2) Explizit Qualität einfordern

Überdies hilft es, beim Prompt explizit eine Antwort anhand seriöser, fundierter Informationen einzufordern. Das hilft besonders, wenn die Websuche zum Zug kommt: Bei Informationen, die auf diesem Weg in die Antwort einfliessen, kann die KI eine Quellenkritik vornehmen – wobei an dieser Stelle noch einmal explizit darauf hingewiesen sei, dass diese Disziplin keine Stärke der Sprachmodelle ist. Die KIs neigen dazu, einen Reddit-Post genauso verlässlich zu halten wie das Paper einer grossen Universität.

Mein Tipp jedenfalls ist, beim E-E-A-T-Modell anzusetzen. Das stammt von Google und wird zur qualitativen Bewertung von Suchresultaten herangezogen (wenngleich mit durchwachsenen Resultaten).

Illustration des E-E-A-T-Modells zur Qualitätsbewertung von Inhalten. Es zeigt vier Säulen: Erfahrung, Fachwissen, Autorität und Vertrauenswürdigkeit, jeweils mit kurzen Beschreibungen.
Ich gebe es zu: Diese Infografik habe ich nicht selbst gezeichnet, sondern von Gemini fabrizieren lassen.

Trotzdem: Es lohnt sich, das Modell zu kennen und beim Prompten zu berücksichtigen. Dabei hilft diese Übersicht, die die Bedeutung der Buchstaben erklärt und zeigt, wie man sie bei Suchen verwendet:

  • Experience – Erfahrung
    «Suche nach Berichten aus erster Hand (Foren, Rezensionen, Fallstudien)»
  • Expertise – Fachwissen
    «Bevorzuge Quellen von Leuten mit nachgewiesener Qualifikation.» Oder: «Beschränke dich auf journalistische Medien mit einem einwandfreien Leumund und auf wissenschaftliche Inhalte.»
  • Authoritativeness – Autorität
    «Verwende die Quellen der ersten Wahl (offizielle Institutionen, Marktführer, Standardwerke.»
  • Trustworthiness – Verlässlichkeit
    «Achte darauf, dass Fakten gut abgestützt sind, sowie auf Transparenz und inhaltliche Verifikation. Keine Fake News, keine interessensgesteuerten Inhalte!»

Beispiele aus der Praxis

Mit diesen Kenntnissen im Hintergrund formulieren wir unsere Prompts konkret und eindeutig. Für eine aktuelle Recherche, die auf journalistischen Informationen basiert, verlangen wir etwa:

Analysiere die aktuelle politische Lage im Iran. Nutze für die Websuche ausschliesslich überregionale Qualitätsmedien mit hohen journalistischen Standards (wie Reuters, AP, «Die Zeit», «Tagesanzeiger», «Spiegel» und «New York Times»). Schliesse Boulevardmedien und Medien mit einer klaren politischen Ausrichtung aus.

Wenn wir den Stand der Dinge aus wissenschaftlicher Sicht herausfinden möchten, ist das ein guter Prompt:

Erkläre den aktuellen Stand der Forschung zur CRISPR/Cas-Methode. Beschränke deine Suche auf akademische Datenbanken wie Google Scholar, Researchgate oder Universitäts-Domains (.edu, .ac.at, .ch). Bevorzuge Peer-Review-Studien und zitiere die wichtigsten Autoren mit ihrer Institution.

Abseits der traditionellen Medien lässt es sich wunderbar recherchieren, insbesondere zu Themen, die für einen Titel mit einem breiten Publikum zu fachspezifisch und nischig wären. Hier formuliere ich z.B. so:

Fasse die Trends bei den agentischen Browsern zusammen. Suche gezielt nach Analysen von anerkannten Branchen-Experten und bekannten Fach-Blogs (z.B. Wired, Techcrunch, zuverlässigen Blogs wie Clickomania.ch oder substanzielle Substack-Newsletter von Fachleuten). Ignoriere generische SEO-Artikel von Firmenwebseiten.

Schliesslich hielte ich es für falsch, den riesigen Bereich des User Generated Content von vornherein auszuschliessen. Denn manche Informationen gibt es nur dort. Aber auch hier erleichtert man sich das Leben mit der richtigen Vorgabe:

Ich brauche Hilfe, um bei meinem Raspberry Pi eine exFAT-formatierte Festplatte zu mounten. Suche nach Lösungen in spezialisierten Experten-Communitys (z. B. Stack Overflow, Github Issues, spezifische Subreddits mit hoher Upvote-Rate). Gewichte Antworten höher, die von verifizierten Experten oder Nutzern mit hoher Reputation innerhalb der Community stammen.

3) Die KI zur Selbstreflexion bewegen

Und ja, bei einer KI von Selbstreflexion zu reden, ist eine unzulässige Anthropomorphisierung. Aber ihr versteht, was ich meine. Wir können eine Auskunft auch nachträglich überprüfen, indem wir das E-E-A-T-Prinzip explizit ins Spiel bringen:

Bewerte die oben genannten Quellen nach dem E-E-A-T-Prinzip. Warum hast du diese Quellen als vertrauenswürdig eingestuft?

Falls ihr einen Lieblingsprompt zur Quellenauswahl habt, freue ich mich, wenn ihr mir den via Kommentare zukommen lasst!

Ein Kommentar zu «Keine Halluzinationen, keine Fake News: Eine Anleitung, um mit KI online zu recherchieren»:

  1. Ich habe die letzten Wochen viel mit lokalen KI-Modellen „gespielt“. Bei der hier von Ihnen besprochenen Thematik gibt es zusätzlich die Problematik, dass bei Online-KI’s nie sichergestellt werden kann, was ausgeliefert wird. Ich habe die grössten freien KI-Modelle lokal getestet und durfte dabei die Erfahrung machen, dass ohne das Unterbrechen des Web-Zugangs die Antworten mit der Zeit abweichen.

    Fragte ich z.B. nach dem Weiler Bürchen (liegt im Wallis), so gab er mir erst einen Weiler im Kanton Thurgau an. Als ich ihn entsprechend korrigierte, gab er später auch den Kanton Wallis zu Protokoll. Allerdings meinte er dann, es läge bei Zermatt. Als ich ihm dann sagte, nein oberhalb von Visp, gab er später (auch zwei Tage später auf einem anderen Rechner) die korrekte Antwort.

    Will heisen, die KI nutzt die User/innen dazu, um sich quasi selber zu trainieren. Dabei besteht die „erhebliche“ Gefahr, dass mit KI-Prompt-Bots die Resultate in eine bestimmte Richtung gepusht werden, je nach Marktkräften halt. Diese Problematik besteht bei lokal installierten KI-Modellen mit Open Source so nicht, sofern denn der Web-Zugang unterbunden wird. Dann sind die Antworten auf verschiedenen Rechnern über die gesamte Zeit identisch, einfach bis neuere Modelle eingespielt werden. Ich finde dieses Momentum nicht ganz unbedeutend, wenn wir über Verlässlichkeit von KI-Modellen reden.

    Ferner erlaube ich mir bei dieser Gelegenheit darauf hinzuweisen, dass lokale KI-Modelle mittlerweile nicht nur bei Text-Modellen sehr weit vorangeschritten sind. Insbesondere audiovisuelle Modelle sind über ComfyUI (heute auf der ArchivistaBox als Open Source freigegeben) sehr leistungsfähig. Als Beispiel verweise ich gerne auf meinen Clip zum Projekt ch1291.ch, der gesamte Clip wurde mit Open Source KI-Tools lokal realisiert: https://ch1291.ch/cms/ch1291-ch-der-song/ – Ob damit Hits entstehen, bleibe dahingestellt, aber die KI erstellte mir zu meinem Projekt fünf Songs, die ich ohne KI nie hätte realisieren können.

    Und mit LTX2.3 sind mittlerweile auch Videos mit FullHD und Audio-Synchronisation lokal möglich, wie es so noch vor einigen Wochen nicht möglich war. Ich denke, dass dies mit ein Grund war, dass Sora „eingestampft“ wurde. Womit wir beim nächsten Punkt wären, was nützen mir all die Cloud-Angebote, wenn ich nicht weiss, ob ich sie morgen (selbst gegen Bezahlung) noch nutzen kann?

    Mit einer geschickten Grafikkarte (AMD R7900 kostet mit 32 GB RAM ca. 1200 Franken) lässt sich dies heute alles auf dem heimischen Rechner realisieren. Warum also sollte ich also Cloud-Systeme nutzten, die im engeren Sinne nicht in der Arbeit überprüfbar sind bzw. schon eine halbe Stunde später wieder andere Resultate „ausspucken“?

Kommentar verfassen