Alt-Text: Digitale Infografik auf einem Laptop vergleicht die Funktionen von ChatGPT und Gemini, präsentiert durch verschiedene Stärken und Schwächen, um ihre KI-gestützten Leistungen zu verdeutlichen.
ChatGPT erstellte anhand dieses Blogpostes eine Infografik, in der sich der KI-Bot selbst ein Kränzlein winden durfte.

Gemini oder ChatGPT: Welche KI erstellt die besseren Infografiken?

Da ChatGPT neuer­dings auch erk­lä­rende Vi­sua­li­sie­rungen er­stel­len kann, ein knall­har­ter Ver­gleich der beiden ge­ne­ra­ti­ven Modelle: Welches liefert die schö­ne­ren, schlüs­si­geren und ein­leuch­ten­deren Schau­bilder?

Vor ein paar Tagen wies mich ChatGPT dezent auf eine neue Fähigkeit hin. Der Chatbot liess wissen, er habe gelernt, Infografiken zu erstellen.

Meine Neugierde war geweckt. Hier geht es um ein vielversprechendes und unterschätztes Einsatzgebiet der künstlichen Intelligenz. Denn erstens sind solche visuelle Erklärhilfen nützlich: Sie liefern einen neuen, anderen Zugang zu einem Sachverhalt. Sie stehen meist nicht in Konkurrenz zum geschriebenen Text. Stattdessen ergänzen sie das Wort und sorgen für Auflockerung. Und sie sind frei von den Problemen, die sich in anderen Bereichen der generativen Bilder-KIs stellen. Nämlich bei den fotorealistischen Motiven, die zu Recht unter dem Deepfake-Generalverdacht stehen.

Solche Infografiken sind demgegenüber leicht als künstlich zu erkennen. Es gibt natürlich menschliche Illustratorinnen und Illustratoren, die durch die KI konkurrenziert werden. Aber ohne diesen Aspekt hier allzu sehr zu vertiefen, glaube ich, dass es denen gelingen wird, sich mit einem eigenen Stil von der nüchternen und uniformen Darstellungsart der KI abzuheben. Wenn ich es mir leisten könnte, würde ich noch so gern eine Künstlerin oder einen Künstler engagieren, der diesem Blog hier eine optische Unverwechselbarkeit verleihen und mir nebenbei die mühselige Bildersuche ersparen würde.

Bisher war Gemini unbestrittener Infografik-King

Aber zurück zu ChatGPT. Bisher waren die Infografiken ein Alleinstellungsmerkmal von Gemini. Dieses multimodale Modell ist in der Lage, aus Text- und Bildelementen solche Collagen zu bauen, die Informationen, Daten, Abläufe oder andere Gegebenheiten darstellen. Die Konkurrenten scheiterten an dieser Aufgabe – meist allein deswegen, weil sie nicht in der Lage sind, in solchen Grafiken korrekte Typografie unterzubringen. Bei meinem Experiment im Februar erstellte mir Gemini aus einer Liste mit Figuren aus Büchern eine Übersicht in Form von Steckbriefen. ChatGPT bekam nur ein Gruppenfoto hin.

Erster Vergleich: Die «Meta-Infografik»

Das ist jetzt definitiv anders – das zeigt schon der erste Versuch. Ich bitte ChatGPT darum, eine «Meta-Infografik» zu erstellen, d. h. eine visuelle Übersicht der gängigen Grafiktypen¹. Das ist das Resultat:

Eine Infografik, die die wichtigsten Arten von Infografiken darstellt. Sie zeigt verschiedene Formate wie Statistik-, Prozess- und Datenvisualisierungs-Infografiken sowie Beispiele für deren Anwendung.
ChatGPT: Das ist die Infografik, die die gängigsten Varianten der Erklärgrafiken aufzeigen soll.

ChatGPT liefert einen nüchternen Stil, der zu einem Schulbuch der 1970er-Jahre passen würde. Der Aufbau ist untadelig und auch an den Beispielen habe ich nichts auszusetzen – obwohl mir bei näherer Betrachtung sicherlich einfallen würde, welche Schwerpunkte ich anders gesetzt hätte. Die Typografie ist – bis auf den Deppen-Bindestrich in «Band-breite» – einwandfrei.

Natürlich drängt sich sofort ein Gedanke auf: Statt als Pixelbild sollte diese Illustration in einem bearbeitbaren Standardformat abgeliefert werden. Meinetwegen SVG, HTML oder noch lieber ein offenes XML-Format für komplexe Layouts, z. B. dasjenige von Scribus (SLA / SLA.GZ).

Da ich einen grossen Vergleichstest der beiden Kontrahenten angekündigt habe, interessiert euch natürlich, wie Gemini die gleiche Aufgabe bewältigt. Nämlich so:

Infografik über verschiedene Typen von Infografiken. Diese umfasst Prozess-, statistische, Vergleichs-, Zeitlinien-, geografische, Listen-, hierarchische Infografiken sowie Anatomie- und Strukturübersicht.
Gemini: Die Übersicht mit den Infografik-Typen à la Google.

Die Unterschiede fallen sofort auf: Gemini liefert nur acht und nicht zwölf Typen. Wie erwähnt, kann man sich auch bei ChatGPT darüber streiten, wie vollständig diese Liste ist, aber die «narrative Infografik» und die «interaktive Infografik» fehlen mir bei Gemini. Dafür nennt Googles KI mit «Anatomie und Struktur» eine Variante, die nicht fehlen dürfte.

Die Beschreibungen sind weniger treffend («geografische Infografik» anstelle von «Karten-Infografik»), darum geht der Sieg eindeutig an OpenAI.

Das gilt auch bei der Bewertung des Stils. Der ist zu einem grossen Grad Geschmackssache. Die nüchternere Darstellung von ChatGPT ist flexibler einzusetzen: Sie passt in ein Blog, in ein Lehrbuch und auch auf die Folie einer Unternehmenspräsentation, während mir der buntere Schnickschnack-Stil von Google für eine Präsentation vor dem Bundesrat oder der Vollversammlung der Vereinten Nationen zu wenig Seriosität ausstrahlen würde.

Zweiter Vergleich: Figuren-Ensemble aus «Der Tote mit dem Sil­ber­zei­chen»

Für den zweiten Vergleich setze ich bei meinem Februar-Experiment an: Bei dem geht es darum, die Figuren aus dem Roman «The Hallmarked Man» von J. K. Rowling als Steckbrief darzustellen. Die Liste des Ensembles habe ich anhand des E-Books mittels Notebook LM erstellen lassen. Und das ist die Übersicht von ChatGPT:

Eine Übersicht über die wichtigsten Charaktere in «The Hallmarked Man», einschließlich deren Rollen, erster Eindrücke und Beziehungen. Die Darstellung enthält Fotos und kurze Beschreibungen der Personen.
ChatGPT: Anhand der Figurenübersicht erstellte Orientierungshilfe.

Um diese Grafik im Detail zu prüfen, müsste ich das Buch noch einmal lesen. Dafür fehlt mir im Moment die Zeit, aber mein erster Eindruck ist: Das ist ziemlich grossartig! Diese Übersicht hilft auf alle Fälle, während der Lektüre die Orientierung zu behalten. Es fällt auf, dass ChatGPT die Informationen aus dem Prompt originalgetreu umgesetzt hat. Die beschreibenden Informationen, die in den «Portraits» zum Ausdruck kommen, hätten nicht als Text ausgegeben werden müssen. Bei meinem Test hilft es allerdings, die Interpretation der KI nachzuvollziehen.

Detail am Rand: Bei den Kästchen in der untersten Reihe stimmen die Linien nicht – da hat die KI selbst die Orientierung verloren.

Im Vergleich dazu die Grafik von Gemini:

Diagramm zu «Das getönte Glas»: Zeigt Charaktere aus der Cormoran-Strike-Reihe in drei Kategorien: Agenturumfeld, private
Die Übersicht der Figuren von «The Hallmarked Man». Nicht falsch, aber lückenhaft und mit nicht immer optimaler Gewichtung.

Auch diesen Vergleich gewinnt ChatGPT haushoch: Erstens wurde die Liste vollständig umgesetzt, zweitens sind die fotorealistischen Visualisierungen der Personen dem vereinfachten Stil deutlich überlegen – auch J. K. Rowlings Buch zeichnet sich durch eine bemerkenswerte Authentizität aus.

Das Potenzial ist offensichtlich

Fazit: Ich denke, mir ist es gelungen, die Behauptung am Anfang dieses Beitrags zu untermauern. In diesen KI-Infografiken steckt enormes Potenzial. Ich habe mir vorgenommen, hier im Blog Hilfestellung zu leisten, wie es sich ausreizen lässt – darum als heisser Tipp: Abonniert doch die Beiträge, damit ihr auf dem Laufenden bleibt.

Was das Duell zwischen OpenAI und Google angeht, finde ich es toll, mit ChatGPT eine leistungsfähige Ausweichmöglichkeit zu haben. Und wir können sicher sein, dass auch hier die Konkurrenz das Geschäft belebt.

Fussnoten

1) Das war der Prompt:

Kannst du mir eine Art Meta-Infografik erstellen? Auf der sollten die wichtigsten (gängigsten) Typen von Infografiken zu sehen sein, plakativ mit einem Beispiel versehen, die die gesamte Bandbreite dieser Illustrationsform abdecken.

Kommentar verfassen