Bots, die Fotos anstarren

Captionbot ist eine künstlich intelligente Web-Anwendung von Microsoft, die zu Bildern eine Legende liefert. Das zeigt, wie eine KI die Welt sieht – und ist manchmal überraschend.

Captionbot ist eine lustige kleine Webanwendung von Microsoft, die Bilderkennung betreibt. Das ist per se nichts Neues. 2015 sind künstliche Intelligenzen aufgetaucht, die Fotos analysieren und mit Schlagworten versehen. Das hat dazu geführt, dass manche Leute sich etwas dumm vorgekommen sind: Nämlich die Leute, die das bis dato selbst gemacht hatten.

Nicht falsch – aber auch nicht so ganz auf den Punkt.

Captionbot will nun nicht das Metadatenfeld mit den Schlagwörtern mit Inhalt füllen, sondern eine Bildbeschreibung abgeben. Das ist noch ein bisschen anspruchsvoller: Es geht nicht einfach nur darum, ein paar Dinge zu benennen, die auf dem Foto zu sehen sind. Nein, die Aufgabe ist, den Kerninhalt des Bildes zu erfassen. Und das Resultat sollte keine Aufzählung, sondern ein kleines Sätzchen sein. Dieses Sätzchen sollte idealerweise jemandem, der das Bild nicht sieht, eine klare Vorstellung vermitteln, was auf dem Bild zu sehen ist.

Das funktioniert in manchen Fällen ganz prächtig. Ein Foto von mir und meiner kleinen Tochter (hier aus Datenschutzgründen nicht abgebildet) wird auf den Punkt mit «I think it’s a person holding a baby» beschrieben. Man hätte die Person als Mann spezifizieren und noch weiter ins Detail gehen können: Ein Mann mit Brille, vor einem Fenster, etc. Aber als Beschreibung in einer Bilddatenbank taugt der Text schon relativ gut.

Ein Reinfall beim Rheinfall

Natürlich habe ich versucht, den Bot aufs Glatteis zu führen. Was bislang gar nicht so schwer ist. Ein grüner Teppich wird für einen Rasen gehalten. Wenigstens Kunstrasen hätte der Bot vermuten können, da der Teppich für einen natürlichen Rasen einfach zu gleichförmig ist. Zu einem Foto des Rheinfalls sagt der Bot «I think it’s a group of people standing next to a river.» Das ist nicht falsch, aber natürlich müsste ein Ort wie dieser explizit benannt werden: «Leute, die sich den Rheinfall ansehen.»

Mit Swissness und Schneemännern hat es der leider Bot nicht.

Eine runde Schachtel mit kleinen, abgepackten Käsedreiecken veranlasst den Bot zu einer Spekulation: «I am not really confident, but I think it’s a pizza sitting on top of a wooden table.» Das ist zwar falsch, aber bemerkenswert: Der Bot gibt zum Ausdruck, dass er die Gerber-Chäsli nicht kennt und sich nicht sicher ist, worum es sich handelt. Die Spekulation mit der Pizza ist nachvollziehbar – da ein Bot noch nie Pizza gegessen hat, kann er auch nicht wissen, dass Pizza nicht derartig kartonig aussehen sollte. Dass die angebliche Pizza auf einem Holztisch steht, ist hingegen eine bemerkenswerte Beobachtung.

Mit Demos hat der Bot es nicht so

Zu einer in Heraklion fotografierten Demonstration gegen die Nato sagt der Bot «I think it’s a person in front of a building and they seem 😐😐.» Das ist grammatikalisch falsch und zeigt, dass der Bot sich nicht entscheiden kann, ob eine oder mehrere Personen auf dem Bild zu sehen sind. Das Emoji bezeichnet einen neutralen Gemütszustand, und das ist offensichtlich falsch. Und auch den Brunnen im Vordergrund hätte man als solchen erkennen können.

Und schliesslich der von mir gezeichnete Schneemann. Er wird als «Close up of a door» bezeichnet: Auf den ersten Blick völlig daneben. Schaut man genauer hin, hat der Bot wohl das Ringheft und das Blatt für die Tür gehalten und den Schneemann wahrscheinlich für einen Kleber auf der Tür. Falsch und nicht so gut, wie das Resultat sein könnte – denn das Ringheft wäre als solches erkennbar gewesen. Aber trotzdem aufschlussreich. Ein Mensch hätte den Schneemann erkannt oder, falls meine künstlerischen Fähigkeiten nicht so gross sind wie gedacht, wenigstens die Zeichnung als solche benannt. Aber es wundert nicht, dass das maschinelle Lernen Mühe mit abstrakten Motiven hat.

Noch nicht in der Praxis angekommen

Fazit: Der Captionbot ist noch nicht in der Praxis angekommen. Zu oft legt er Wissenslücken an den Tag oder setzt er die Prioritäten falsch. Die Ergebnisse sind aber nicht so schlecht, dass man ihn als unfähig abtun könnte.

Ich hätte es schlechter treffen können.

Übrigens: Ein Gspändli des Captionbots ist celebslike.me: Diese künstliche Intelligenz sucht nach Promis, die so aussehen, wie man selbst. Mein Doppelgänger ist demnach Journalist, Autor und Dokumentarfilmer Jon Ronson. Naja, ich hätte es schlechter treffen können. Nur würde mein Film nicht «The Men Who Stare at Goats» heissen, sondern «The bots who stare at pictures»…

Kommentar verfassen