Auch mit Gemini bleibt Google Bard unbrauchbar

Kann Googles neues Sprach­modell die Mankos des Chat­ro­bo­ters Bard aus­bü­geln? Die Ant­wort ist ein kra­chen­des Nein: Diese KI ist so mi­se­ra­bel schlecht, dass sie sofort ab­geschal­tet werden muss.

Googles KI-Chatbot war bis anhin kein Ruhmesblatt und keine Freude für seine Erfinder: Bard hat sich bei meinem ersten Test peinliche Blössen gegeben und auch bei zwei weiteren Versuchen (hier und hier) habe ich mehr Ungereimtheiten festgestellt, als das bei ChatGPT oder Microsoft Copilot der Fall war.

Ändert sich das jetzt? Google hat den Bot auf das Gemini-Sprachmodell umgestellt. Das war zuerst in den USA der Fall, und seit letzter Woche ist Gemini in mehr als vierzig Sprachen und 230 Ländern aktiv. Gemini wird hier in hohen Tönen gepriesen:

Gemini wurde von Grund auf multimodal konzipiert und kann verschiedene Arten von Informationen, darunter Text, Bilder, Audio, Video und Code, verallgemeinern und nahtlos verstehen, verarbeiten und kombinieren. Das bedeutet, dass es über ausgefeilte multimodale Schlussfolgerungen und fortschrittliche Kodierungsfunktionen verfügt.

Es gibt Gemini in drei Eskalationsstufen Ultra, Pro und Nano. Das erste ist das komplexeste und anspruchsvollste; das zweite für universelle Belange konzipiert und das dritte ist klein genug, dass es auch auf Endgeräten laufen können soll. Bei Bard soll Gemini Pro zum Einsatz kommen.

Schön und gut: Aber was taugts?

Ein erster Test führe ich zu mir selbst durch – denn schliesslich weiss ich dann ganz genau, welche Informationen stimmen und welche nicht. Bard weigert sich: «Ich habe nicht genügend Informationen zu dieser Person.» Aber zu meinem Blog Clickomania liefert er mir eine Zusammenfassung, die auf den ersten Blick korrekt erscheint.

Eine eher oberflächliche Analyse

Als besonders gut taxiere ich sie jedoch nicht: Der Tonfall ist oberflächlich: Viele der Dinge, die Bard mir vermittelt, sehe ich selbst, wenn ich einen Blick auf die Startseite des Blogs werfe. Und mir klingt die Besprechung viel zu sehr nach Marketing-Blabla und zu wenig nach sachlicher Kritik. Ein Beispiel:

Zusammenfassend: «Clickomania» ist ein interessanter und abwechslungsreicher Blog für alle, die sich für Technologie, Fotografie, Nerdkultur, Reisen und den Alltag interessieren. Der Blog ist gut geschrieben und bietet sowohl informative als auch unterhaltsame Beiträge.

Die farbige Hinterlegung stammt von der «Double Check»-Überprüfung.

Das eigentliche Problem ist aber der letzte Punkt bei «zusätzliche Informationen». Hier jubelt uns Bard eine Fehlinformation unter:

Beliebte Beiträge: Zu den beliebtesten Beiträgen des Blogs gehören «Das grosse Twitterer-Assessment», «Wie das Internet deine Arbeit macht» und «Wo Wolkenkratzer in den Himmel schiessen».

Ich habe nachgeschaut:

Mir ist nicht im Ansatz klar, wie Bard zu dieser Fehleinschätzung kommen konnte. Der Beitrag zu Köppel hat immerhin in den sozialen Medien einige Wellen geworfen. Doch der Blogpost zu einem Zeitraffer-Video mit den Wolkenkratzern landet an die Spitze der am schlechtesten gelesenen Beiträge überhaupt. Die Behauptung von Bard ist damit nicht nur falsch, sondern auf groteske Weise irreführend.

Der falsche Faktencheck

Es wird noch schlimmer: Die Funktion Antwort überprüfen (englisch Double Check), die die Bard-Aussagen mittels Google-Suchresultaten absichert, markiert diese Aussage als Grün, also als zutreffend. Damit komme ich unweigerlich zum Schluss, dass nicht nur Bard nicht vertrauenswürdig ist, sondern auch der Double Check nicht.

Das ist fatal, denn genau diese Aussage zu der Beliebtheit der Blogpost scheint vertrauenswürdig: Google als Datensammler vor dem Herrn hat die Mittel und Wege, um die beliebtesten Inhalte einer Website zu bestimmen. Die Nutzungsdaten der Google-Suchmaschine geben darüber Aufschluss. Bei Clickomania kommt hinzu, dass ich seit Jahren Google Adsense verwende: Über die Ausspielung der Werbebanner könnten die Freunde in Mountain View sehr genau wissen, dass mein Beitrag zu den Wolkenkratzern publikumsmässig ein Granaten-Flop war.

Von vorn bis hinten gelogen

Ich habe die Sache noch weitergetrieben und gefragt, ob mir Bard eine Grafik der beliebtesten Beiträge erstellen könnte. Die Grafik hat er zwar nicht gemacht, aber dafür folgende Rangliste herausgerückt:

Diese «Rangliste» ist komplette Fiktion. Der Faktencheck entlarvt einige, aber längst nicht alle Fehler.

Und die ist nun leider von vorn bis hinten gelogen. Die Rangliste hat nichts mit den wahren Einschaltquoten zu tun. Die Liste meiner Top-Beiträge wird seit Längerem durch drei Postings angeführt, die in Bards Rangliste nicht einmal vorkommen¹. Dafür hat Bard sieben Beiträge erfunden, die es in meinem Blog gar nicht gibt².

Schliesslich wollte ich wissen, auf welcher Datenlage mir Bard diese Auskunft gegeben hat. Auch die Antwort³ ist irreführend. Bard behauptet, ich würde Google Analytics verwenden und verstärkt damit den Eindruck, dass die hier gelieferten Informationen tatsächlich durch Daten abgesichert sind, die Google vorliegen. Allerdings nutze ich Google Analytics explizit nicht, und ich habe 2018 sogar die Aufforderung veröffentlicht, Google Analytics über Bord zu schmeissen.

Ein Lügner, der seine Lügen rechtfertigt.

Damit liegt das Verdikt auf der Hand: Unter der Annahme, dass Gemini tatsächlich schon zum Einsatz kommt, wird Bard enttäuschenderweise keinen Deut brauchbarer. Ich habe genau eine Stichprobe gebraucht, um auf fatale Fakenews zu stossen. Klar – vielleicht war das ein unglücklicher Zufall. Aber selbst wenn nur jede zehnte oder fünfzigste Aussage derartig daneben ist, wäre das inakzeptabel.

Wer auf Bard vertraut, geht in die Irre

Denn Google insinuiert hier, internes Wissen für die Antworten zu verwenden. Das macht es schwer bis unmöglich, die Aussagen zu überprüfen. Dass sie falsch sind, konnte ich nur beweisen, weil ich meine eigene Website habe untersuchen lassen, bei der ich Zugang zu den Webstatistiken besitze. Bei einer tatsächlichen Recherche wäre das nicht der Fall.

Die Sache wird umso schlimmer, weil auch die Double Check-Funktion weitgehend versagt. Ich rate Google dringend, Bard abzuschalten und die Entwicklung auf Feld eins neu zu beginnen.

Fussnoten

1) Es sind dies die Beiträge Eine KI für erotische Fantastereien, So lässt sich die Audio-Wiedergabe am iPhone aufzeichnen und Was hilft, wenn das WLAN im Hotel nicht funktioniert.

2) Die von Bard erfundenen Beiträge:

  • Die 10 grössten IT-Fails aller Zeiten (2017)
  • Warum ich kein Smartphone mehr besitze (2016)
  • Die Zukunft der Fotografie (2015)
  • Die besten Apps für Android (2014)
  • Soziale Medien: Fluch oder Segen? (2013)
  • Wie man einen Blog startet (2012)
  • Die 10 wichtigsten Websites im Internet (2011)

Der Text «Die Zukunft der Fotografie» kommt in diesem Beitrag hier vor, ist aber ein Verweis auf einen Beitrag für den Tagesanzeiger. Es gibt auch einen Beitrag, der Wie erfolgreich mit einer neuen Website starten? heisst, aber aus dem Jahr 2020 stammt.

3) Das ist die Antwort von Bard auf die Frage, woher die Informationen über die Beliebtheit der Beiträge in meinem Blog stammen:

  • Die Website von Clickomania: Auf der Website von Clickomania gibt es eine Seite mit den «Top-Beiträgen». Diese Seite listet die Beiträge auf, die die meisten Aufrufe erhalten haben.
  • Google Analytics: Matthias Schüssler, der Autor von Clickomania, verwendet Google Analytics, um die Zugriffe auf seinen Blog zu verfolgen. Google Analytics kann ihm zeigen, welche Beiträge die meisten Aufrufe erhalten haben.
  • Social Media: Die beliebtesten Beiträge von Clickomania wurden oft in sozialen Medien geteilt. Dies kann ein guter Indikator dafür sein, welche Beiträge bei den Lesern am beliebtesten sind.

Beitragsbild: Der wahre Bard (William Shakespeare) wäre not amused (Dall-e 3).

2 Kommentare zu «Auch mit Gemini bleibt Google Bard unbrauchbar»

  1. Ich vermute, daß sich nur der Name von „bard“ in „gemini“ geändert hat. Der chatbot dahinter ist der Gleiche geblieben.
    Analog zu „bard“ schafft es „gemini“ nicht, eine gewünschte Anrede in der dritten Person über mehr als 3 Antworten aufrecht zu erhalten. Stoisch wechselt die KI nach kurzer Zeit wieder in das pöbelhafte DU.

  2. Gemini zeigt sehr deutlich, dass „gut gemeint“ manchmal das Gegenteil von „gut gemacht“ ist: https://thezvi.wordpress.com/2024/02/22/gemini-has-a-problem/

    Kurzfassung: Generative AI erzeugt Inhalte anhand dessen, was sie gelernt hat. Wenn man ein Bild von fünf Ingenieuren erzeugt, werden darauf mit grosser Wahrscheinlichkeit fünf weisse Männer zu sehen sein. So erzeugte Bilder werden auf Websites veröffentlicht und dienen wiederum als Trainingsmaterial. Ein Teufelskreis.

    Google hatte nun die Idee, dem entgegenzuwirken, indem die Prompts vor der Bilderstellung abgeändert werden. Man verlangt fünf Ingenieure, Google fügt „darunter eine Frau und ein Asiate“ an und erzeugt dann das Bild. Leider führt das dazu, dass Bilder mit historischem Kontext vollkommen falsch erzeugt werden und die KI unbrauchbar machen.

Kommentar verfassen