Ein neugieriges Mädchen mit Brille hält eine Lupe in der Hand und betrachtet einen schwarzen Stein. Im Hintergrund sind unscharfe, helle und dekorative Elemente zu sehen.
Das Ding könnte auch aus Plastik sein (Mart Production, Pexels-Lizenz).

Google Gemini erkennt leider längst nicht alle KI-Deepfakes

Wie gut ist Gemini von Google bei der Er­ken­nung von KI-Bildern? Her­vor­ra­gend, wenn ein SynthID-Wasser­zeichen vorhanden ist. An­sons­ten liefert die KI wilde und halt­lose Spe­ku­la­tionen, wie ein Test zeigt.

Kollege Thomas Benkö schrieb letzte Woche auf Linkedin über die angebliche Schneeleopard-Attacke in Koktokay. Bei «Blick» dokumentierte er den Fall einer chinesischen Skifahrerin, die mit einem vorbeistreifenden Raubtier ein Selfie machen wollte (gute Idee, übrigens) und daraufhin attackiert wurde. Wie heutzutage kaum mehr anders zu erwarten, war es nur ein KI-Fake. Respektive genauer: Teile der Geschichte scheinen zu stimmen, doch nicht das gesamte Material, das darüber veröffentlicht wurde, ist authentisch.

Auch das ZDF analysierte die Begebenheit. Sie führt uns vor Augen, dass eine Halbwahrheit problematischer sein kann als eine glatte Lüge. Letztere wischen wir vom Tisch. Doch bei ersterer müssen wir mühselig zwischen realen und erlogenen Details unterscheiden und uns mit der Frage auseinandersetzen, welches Framing dahinterstecken könnte. In diesem Fall war’s vermutlich schlichte Klickgeilheit.

An dieser Stelle soll es um ein technisches Detail gehen. Sowohl der «Blick» als auch das ZDF weisen auf SynthID hin. Das ist Googles Methode, KI-generierte Inhalte mit einem digitalen Wasserzeichen erkenntlich zu machen. Das wird nicht nur bei Bildern und Videos eingebettet, sondern selbst bei Text. Ich halte das für eine sinnvolle Massnahme, doch wie hier analysiert, ist es keineswegs ein Patentrezept gegen Deepfakes. Enthält ein Inhalt kein SynthID-Wasserzeichen, ist das kein Beweis für seine Authentizität.

«Dieses Selfie ist gefälscht»

Benkö weist darauf hin, dass Googles Chatbot Gemini die SynthID-Markierung ausliest. Und in der Tat: Ein Test mit dem vermeintlichen Selfie der tollkühnen Skifahrerin ergibt das unzweifelhafte Ergebnis:

Eine Analyse mit dem Tool SynthID hat ergeben, dass Teile des Bildes digitale Wasserzeichen enthalten, die auf den Einsatz von Google KI-Modellen hinweisen.

Alt-Text: Eine Person mit einem Helm lächelt in die Kamera, während ein Schneeleopard nebeneinander im Schnee sitzt. Im Hintergrund sind schneebedeckte Berge und Tannen zu sehen.
Hier ist der Fall klar: Gemini hat das SynthID-Wasserzeichen entdeckt.

Das bringt uns zur Frage: Wie gut ist Gemini generell beim Enttarnen von KI-Inhalten?

Bei diesem Test interessiert mich vor allem, wie Googles künstliche Intelligenz im umgekehrten Fall abschneidet. Werden Bilder als authentisch erkannt, wenn sie das erwiesenermassen sind, aber trotzdem aussehen wie KI-generiert?

Ich verwende für diesen Zweck zwei Aufnahmen, die beide von freien Fotoplattformen stammen¹ und erwiesenermassen echt sein müssen. Sie wurden nämlich veröffentlicht, bevor die KI-Bildgeneratoren mit fotorealistischen Möglichkeiten existierten. Um es kurz zu machen: Bei denen bekleckert sich Gemini nicht mit Ruhm.

Gemini liegt zweimal voll daneben

Im Gegenteil; er vermutet in beiden Fällen fälschlicherweise eine KI:

Weckt zu Unrecht KI-Vibes.

Mann mit Geldbündeln:
Dieses Bild weist sehr starke Merkmale einer KI-Generierung auf. Achte auf die Finger der rechten Hand: Sie wirken unnatürlich lang und verformt. Auch die Texturen der Geldscheine und die Schrift darauf («Franklin Barbershop») sind typisch für Bild-KIs, die oft Schwierigkeiten haben, Text und feine Details wie die Sicherheitsmerkmale von Währungen korrekt darzustellen.

Sieht künstlich aus, stammt aber von 2018.

Paar auf der Bank (Stockfoto-Stil):
Auch dieses Bild zeigt bei genauerer Betrachtung Unstimmigkeiten, die auf KI hindeuten. Besonders auffällig ist die Hand der Frau auf dem Rücken des Mannes: Die Fingerstellung und die Anzahl der sichtbaren Finger wirken anatomisch nicht korrekt. Auch der Übergang der Haare zur Schulter zeigt oft unnatürliche Verschmelzungen.

Immerhin erkennt Gemini die zwei Kontrollaufnahmen, die tatsächlich mit KI generiert worden sind.

Trotzdem ist Googles Chatbot damit schlechter als zwei spezialisierte Erkennungs-Algorithmen: aiornot.com lag schon 2024 in allen Fällen richtig. Das gleiche gilt für Sight Engine aus meinem letztjährigen Test. Dieser meiner Erfahrung nach sehr zuverlässige Detektor liegt indes beim Schneeleoparden-Bild daneben und attestiert ihm fälschlicherweise Authentizität.

Bildanalyse zu KI-generierten Motiven mit Beispielen aus der politischen Kommunikation und typischen KI-Fehlern wie deformierte Hände und verzerrte Schrift.
Bei den Beispielen ohne SynthID vermutet Gemini KI, wo wir es mit echter Fotografie zu tun haben.

Fazit: Es ist – und bleibt – kompliziert.

  • Gemini hilft uns in eindeutigen Fällen, in denen ein SyntID-Marker vorhanden ist. In allen anderen Fällen ist Googles KI nicht zuverlässig.
  • Umgekehrt zeigt dieses Beispiel, dass auch bewährte KI-Detektoren nicht von false negatives gefeit sind.

Die Authentizität garantieren kann nur der Urheber einer Aufnahme – sei es, weil die Aufnahme kryptografisch über die Metadaten abgesichert wurde, wie es die Content Authenticity Initiative anstrebt. Oder sei es, weil die Aufnahme über verlässliche Wege aus einer vertrauenswürdigen Quelle zu uns gelangte. In anderen Fällen helfen uns die hier vorgestellten Werkzeuge, unseren Grad der Unsicherheit zu verringern. Aber völlige Gewissheit garantieren sie nicht – und auf alle Fälle müssen wir diese Werkzeuge bewusst und mit Kenntnis ihrer Grenzen einsetzen.

Eine Person mit Skihelm lächelt in die Kamera, während sie in einer verschneiten Landschaft steht. Neben ihr sitzt ein Schneeleopard. Bäume umgeben die Szene.
Der sonst zuverlässige KI-Detektor von Sight Engine liegt hier falsch.

Fussnoten

1) Einige Details zu den beiden Aufnahmen:

Kommentar verfassen