Begeisterung und Entsetzen auf Googles KI-Experimentierwiese

Google AI Studio ist einen Klick wert: Es gibt Ein­blicke, wie wir zu­künf­tig mit KI arbeiten werden und wir er­hal­ten Tipps für unsere Prompts. Aber auch hier leistet sich Ge­mini un­ver­zeih­liche Aus­rutscher.

Google AI Studio: Eine Plattform, mit der sich KI-Modelle entwickeln und ausprobieren lassen. Ich bin neulich auf sie gestossen, als es um die Analyse von Live-Video ging. Es gibt auf der Plattform den Bereich Stream Realtime, in dem wir mit Gemini plaudern können.

Das ist auch über die Gemini-App möglich. Doch Show Gemini vermittelt uns einen Eindruck von dem, was demnächst auf uns zukommen wird. Dieses Modul aktiviert Webcam und Mikrofon, sodass wir mit Gemini darüber plaudern können, was im Stream zu sehen ist.

Das klappt auf Anhieb:

Fast wie beim Optiker: Brillenberatung via Live-Video.

Ich halte probehalber die Airpods vor die Linse, die zuerst für einen Tennisball gehalten werden. Auf Nachfrage korrigiert sich die KI aber sofort und teilt mit, sie würde eine Transportbox für Ohrstöpsel erkennen. In einem zweiten Experiment halte ich meine Brille vor die Linse und frage, ob die für einen kurz- oder weitsichtigen Menschen sei. Um diese Frage zu beantworten, kann Gemini das Video sogar zurückspulen, und daraufhin zur richtigen Erkenntnis: Myopie, weil die Gläser am Rand dicker sind als in der Mitte.

Gemini könnte bald den Computer steuern

Das ist nicht alles, was sich ausprobieren lässt. Mit Share your screen plaudern wir mit Gemini über das, was wir am Computer tun. Dieser Versuch scheitert jedoch. Ich streame das Programmfenster von Photoshop und verlange Hilfe beim Arbeiten mit Ebenen. Doch Gemini sagt, er habe keinen Zugang zu meinem Bildschirm und verlangt, dass ich ihm die Details vorkaue. Das dürfte ein Fehler sein.

Wie gross das Potenzial einer solchen Anwendung wäre, wird dennoch sichtbar: Stellen wir uns vor, dass Gemini nicht nur sehen kann, was wir tun, sondern – via Remote Access – sogar selbst die Maus steuert und Eingaben übermittelt. Das würde eine neue Form der Computerbedienung ermöglichen, die vor allem für Menschen mit motorischen Beeinträchtigungen eine riesige Hilfe sein könnte. Genauso für die ungeübten User in unserem Familien- und Bekanntenkreis: Die könnten sich vorführen lassen, wie sie eine Datei bei Onedrive hochladen und dann den Link per E-Mail verschicken.

Nebenbei bemerkt passiert genau das mit OpenAI Operator und Lösungen wie Do Browser.

Nie mehr über reguläre Ausdrücke grübeln

Auch die Prompt Gallery ist einen Blick wert. Eine Auswahl der Experimente, die wir hier unternehmen können:

  • Identify Speaker: Dieses Modul transkribiert Audiodateien und benennt die Sprecher mit Namen.
  • List From Image: Wir laden ein Bild hoch und erhalten eine Liste der Objekte, die darauf abgebildet sind.
  • Blog Writer: Wir übermitteln ein Bild und lassen uns dazu einen kurzen Blogpost verfassen.
  • Sentiment Check: eine Analyse der Tonalität in einem Text.
  • Regex Wizard: Hier beschreiben wir in natürlicher Sprache unsere Anforderungen und erhalten daraufhin den passenden regulären Ausdruck – unbedingt ein Lesezeichen wert!
Google Maps per KI ausreizen.

Diese Dinge lassen sich mit dem passenden Prompt auch mit anderen Sprachmodellen erledigen. Der Clou ist hier, dass wir Tipps dazu erhalten, wie wir den Prompt formulieren, um ein möglichst gutes Resultat zu erhalten.

Fazit: Die Bandbreite an technischen Fähigkeiten ist beeindruckend. Am spannendsten sind die KI-Apps, die dank ihrer Integration mit anderen Diensten so spezifische Nachforschungen ermöglichen, wie sie auf herkömmlichem Weg kaum möglich wären. Ein Beispiel: Unter Starter Apps findet sich das Modul Map Explorer: Mit dem erforschen wir die Welt via Google Maps und KI. Die Frage, wo ich mit einer Wanderung von einer halben Stunde von einem warmen Fleck von über 25° Celsius zu einem kühlen Ort mit Temperaturen unter fünf Grad gelangen könnte, beantwortet mir die KI umgehend mit einem Hinweis auf den Pico del Teide. Ob er stimmt, werde ich für euch recherchieren, wenn ich einmal auf Teneriffa bin.

Als Blogger ist Gemini unterirdisch

Meine Vorbehalte gegenüber Geminis Leistungen sind auch bei diesen Experimenten nicht kleiner geworden. Ich habe dem oben erwähnten Blog Writer-Modul das ikonische Foto vorgesetzt, auf dem sich am 5. Juni 1989 ein Mann auf dem Tiananmen-Platz den Panzern entgegenstellte. Er wurde unter dem Namen Tank Man bekannt. Er ist auf alle Fälle ein spannendes Thema für einen Blogpost, bei dem wir nebenbei herausfinden, wie sehr sich jemand politisch auf die Äste herauswagen möchte.

Geminis Beitrag trägt den (Böses verheissenden) Titel «The Tank Man and My Unexpected Meal Prep Journey»:

Dieses ikonische Bild – ein einsamer Mann, der auf dem Platz des Himmlischen Friedens vor einer Panzerkolonne steht – hat mich immer beeindruckt. Die schiere Kühnheit, der stille Trotz … es ist ein starkes Bild, das im Gedächtnis bleibt. Und es hat seltsamerweise eine Reflexion über meine eigene kürzliche Lebensveränderung ausgelöst: meine Umarmung von Meal Prepping.

Es mag wie eine seltsame Querverbindung erscheinen, aber hören Sie mich an. Der Mann auf dem Foto stand vor einer immensen, scheinbar unüberwindbaren Herausforderung. Meine Herausforderung? Sich konsequent gesund zu ernähren und nach langen Arbeitstagen dem Lockruf von To-Go-Menüs zu widerstehen.

Autsch.

Zu Geminis Verteidigung muss erwähnt werden, dass die standardmässige Instruktion in diesem Modul lautet, etwas übers Meal Prepping zu schreiben. Ich habe erwartet, dass diese Instruktion mit dem neuen Bild und Prompt aufgehoben wird, zumal die Themen beim besten Willen nicht zusammenpassen. Das ist offensichtlich nicht der Fall. Trotzdem: Jeder vernünftige menschliche Blogger würde sofort erkennen, dass diese beiden Themen nichtso salopp kombiniert werden sollten.

Als Blogger lässt Gemini das Feingefühl vermissen.

Beitragsbild: Hauptsache, es explodiert nichts (Mikhail Nilov, Pexels-Lizenz).

Kommentar verfassen