Der Hype im Hype – das sind die Agenten: Sie würden 2025 das entscheidende Momentum zur rasanten Entwicklung der künstlichen Intelligenz beitragen. Das war die wichtigste KI-Prognose, die Ende des letzten Jahres herumgeboten wurde.
Nun ist das neue Jahr schon mehr als zur Hälfte durch und es ist nicht absehbar, dass sich diese Weissagung bestätigen wird. Zwar wird viel von diesen Agenten gesprochen – namentlich bei Microsoft, wo ich im März einer euphorischen Medienkonferenz beiwohnte. Wie weit die Agenten in die Geschäftswelt vorgedrungen sind, ist für mich schwer abschätzbar. Meine Vermutung ist aber, dass es länger dauert, als es den KI-Turbos lieb ist. Denn so verlockend es in der Theorie auch sein mag, Routinearbeiten an einen solchen Agenten zu delegieren, lauern in der Praxis viele schwer zu erkennende und gänzlich unsichtbare Stolperfallen. Abläufe sind oft historisch gewachsen, nur in Teilen transparent und werden von ungeschriebenen Gesetzen beeinflusst, die einer künstlichen Intelligenz nicht einfach zu vermitteln sind.
Langsam und limitiert
Auch die Agenten stecken noch in den Kinderschuhen. Das lässt sich wunderbar bei ChatGPT beobachten: Dort wurde anfangs Jahr Operator eingeführt, der im Web eigenständig Aktionen ausführt. Obwohl er nur mit dem teuren Pro-Abo für 229 Euro in den USA zur Verfügung stand, hatte ich die Gelegenheit, ihn auszuprobieren. Fazit damals: Ein interessantes Laborexperiment, das das Potenzial erahnen lässt, aber für alltägliche Aufgaben noch viel zu limitiert und langsam ist.

Seit Mitte Juli hat Operator ausgedient. An seine Stelle ist der Agentenmodus getreten, der mir mit meinem Plus-Abo für 20 US-Dollar offiziell zur Verfügung steht – allerdings mit einer streng limitierten Zahl von Anfragen. Das ist natürlich die Gelegenheit für einen weiteren Test.
Die Frage ist natürlich: Was für eine Aufgabe stellen wir dem Agenten?
Bei Heise hatten sie die Idee, den Agenten T-Shirts produzieren zu lassen: Er solle Preise einholen und nach dem Okay des Auftraggebers gleich 500 Stück mit dem Logo auf Bio-Baumwolle bestellen. Dieses Experiment war weitgehend erfolgreich: Der Mensch hätte nach Lage der Dinge nur noch seine Kreditkarte angeben und auf Bestellen klicken müssen.
Ich habe einige ähnliche Recherchebeispiele durchexerziert und mein Fazit war durchwegs, dass ich diese Aufgaben selbst schneller erledigt hätte. Natürlich, die Idee ist, dass ich in der Zeit, während der Agent zugange ist, etwas anderes tun kann. Das ist bislang absolut nicht der Fall: Denn der Agent stellt Nachfragen, benötigt Log-ins und manövriert sich in Sackgassen. Und klar, ich will natürlich zusehen, in welcher Weise hier versucht wird, meine Arbeitsanweisung auszuführen.
Konkret habe ich das probiert:
1) Die Bildrecherche
Die Aufgabe lautet: «Das ist eine Liste mit meinen zuletzt gehörten Hörbüchern. Bitte hole mir zu jedem Titel ein hochauflösendes Bild des Hörbuch-Covers aus dem Netz.»
Die Liste habe ich als Excel übergeben. Die naheliegendere Aufgabenstellung wäre natürlich gewesen, ChatGPT die Zugangsdaten für meinen Audible-Account zu geben und den Agenten die Buchtitel selbst heraussuchen zu lassen (wie man das im Vor-KI-Zeitalter via Scraping tun musste, habe ich 2021 ausprobiert). Das gäbe uns die Möglichkeit, weitere Vorgaben zu machen, z. B. nur die Bücher mit einer Bewertung von vier oder fünf Sternen zu berücksichtigen.
Aber ehrlich: Ich habe Skrupel, OpenAI meine Zugangsdaten für Shopping-Accounts anzuvertrauen. Erstens natürlich, weil mir der maximal vorsichtige Umgang mit derlei Daten in Fleisch und Blut übergegangen ist. Zweitens jedoch auch, weil dieser Weg Vorgänge zur Folge hätte, die für Audible bzw. Amazon extrem verdächtig wirken würden: Es scheint mir recht wahrscheinlich, dass dieses Verhalten so untypisch für mich wäre, dass es eine vorsorgliche Kontosperre zur Folge hätte. Und ich habe wirklich keine Lust, mich mit dem Amazon-Support herumzuschlagen und zu erklären, dass ich bloss ein wenig mit ChatGPT herumgespielt habe.
Daraus ergibt sich ein klarer Schluss: Dieser Agent wäre grossartig, wenn wir ihn direkt in unserem Browser ausführen könnten, sodass er mit allen hinterlegten Zugangsdaten und Informationen arbeiten und direkt mit unserem Dateisystem interagieren könnte. Er wäre dann in der Lage, die Coverbilder direkt im Download-Verzeichnis zu platzieren.

Was die Ausführung angeht: ChatGPT braucht 18 Minuten, um die Bilder zu sammeln. Ohne es ausprobiert zu haben, bin ich überzeugt, dass ich schneller gewesen wäre.
Die Cover werden in Form einer Tabelle angezeigt. Ich frage: «Kann ich diese Bilder in einem Rutsch herunterladen?» ChatGPT liefert mir daraufhin eine ZIP-Datei, die tatsächlich alle 14 Coverbilder enthält. Die Forderung nach einer hohen Auflösung hat der Agent leider weitgehend ignoriert: Ein Cover hat 2400 Pixel Kantenlänge, ein zweites 1400. Die meisten weisen aber 500 oder auch bloss 304 Pixel auf. Das ist ungenügend.
2) Die Pflege unserer Website
Ein riesiges Potenzial sehe ich beim Webdesign: Statt selbst an meiner Wordpress-Installation herumzufrickeln, könnte der Agent knifflige Anpassungen vornehmen. Das wäre geradezu eine Paradedisziplin für diese Einsatzform der KI. Nebenbei bemerkt haben wir bei dieser Einsatzform die Möglichkeit, dem Datenschutz Rechnung zu tragen: Wir richten für ChatGPT ein separates Benutzerkonto in unserem CMS ein, das wir nach getaner Arbeit deaktivieren.
Bei meinem ersten Test mit Operator kam ich nicht ans Ziel¹. Beim zweiten Versuch ging es mir letzte Woche um ein direkt aus dem Leben gegriffenes Problem. Die Search Console von Google meldet mir nämlich einen hohen CLS-Wert: Der Cumulative Layout Shift gibt an, wie stark sich die Elemente der Website während des Ladens verschieben. Das ist lästig für die Nutzerinnen und Nutzer und wird darum als Problem bei der Nutzerfreundlichkeit taxiert.
Nun konnte ich selbst dieses Problem nicht nachvollziehen und kam daher zum Schluss, dass Google selbst beim Einfügen der Werbebanner das Problem verursacht. Diese Vermutung wollte ich durch ChatGPT überprüfen.
Meine Anfrage, natürlich mit einer ausführlichen Problembeschreibung: «Kannst du das CLS-Problem eingrenzen und mir sagen, welche Elemente auf der Seite für das Problem verantwortlich sind?»

ChatGPT bestätigt nach einer dreiminütigen Recherche meine Vermutung:
Fazit: Die über 0,25 liegende CLS‑Rate entsteht durch dynamisch nachgeladene Google‑Ads und den Einwilligungsbanner. Sie erscheinen erst nach der Seiteninitialisierung und schieben den Inhalt nach unten, was Google als Layout‑Shift wertet.
Leider macht ChatGPT keine Anstalten, dieses Problem für mich zu lösen. Ich erhalte lediglich einen billigen Tipp, den ich mir auch selbst hätte aus den Fingern saugen können.
Reserviere feste Platzhalter für die Anzeigen oder platziere sie weiter unten und sorge dafür, dass Pop‑ups überlagern statt verschieben – dann bleibt der CLS‑Wert im grünen Bereich.
Fazit: Nicht völlig nutzlos – aber bis wir bei solchen Aufgaben die Füsse hochlegen können, dauert es noch. Ich bin gespannt, wie das in einem Jahr sein wird!
Fussnoten
1) Bei diesem Test gab ich Operator den Auftrag, ein Problem mit meinem Theme zu reparieren. Zugegeben, eine sehr technische Angelegenheit: Mich stört seit jeher, dass das Menü am rechten Rand nicht «sticky» ist, obwohl es eine entsprechende Option in der Einstellung gibt. Die KI hat an den richtigen Stellen nachgeschaut, war aber nicht in der Lage, das Problem zu lösen. Vielversprechender war es, den Quellcode des Themes hochzuladen und den analysieren zu lassen. Dabei gab mir vor allem Claude nützliche Hinweise. Geknackt hat diese Nuss erst GPT-5 – und zwar souverän.
Dennoch hat diese Geschichte ein Happy End: GPT-5 hat das Problem souverän gelöst – und zwar ohne Agent. Stattdessen habe ich das ZIP-Archiv meines Themes hochgeladen und es analysieren lassen. Die neue Version des Sprachmodells hat das Problem erkannt und den Code geliefert, mit dem nun alles funktioniert, wie gewünscht. Ein toller Fortschritt gegenüber meinem ersten Versuch im Februar! ↩
Beitragsbild: «Hochauflösend, habe ich gesagt!» Ich, wie ich ChatGPT zusammenscheisse, weil er meinen Auftrag nicht zu meiner vollen Zufriedenheit ausgeführt hat (Yan Krukau, Pexels-Lizenz).
Ich habe den Agent bei diversen Shops nach einer externen SSD suchen und sie beim günstigsten Anbieter in den Warenkorb legen lassen. Das hat mehrere Minuten gedauert und am Schluss hatte ich Zugriff auf die Browser-Sitzung, um die Bestellung abzuschliessen. Mittels eines Preisvergleichsportals wäre ich schneller gewesen.
Mit einem Tool wie „Browser MCP“ könnte man (zum Beispiel über Msty) die lokale Browsersitzung verwenden. Habe ich bislang nicht getestet. Aktuell halte ich das automatisierte Auslösen von Bestellungen für gefährlich.
Besser funktionieren Interaktionen, wenn die Maschine direkt mit einer Maschine sprechen kann, ohne Umweg über ein HTML-User-Interface. Beim Erstellen von GPTs kann man Aktionen hinzufügen. Dort beschreibt man eine API in einem standardisierten Format und gibt Zugangsdaten an. Das GPT kann dann damit Aktionen ausführen, zum Beispiel „createPostDraft“ bei WordPress. Der Hilfelink führt zu „ActionsGPT“, welches die Spezifikationen automatisch erzeugt, wenn man etwa curl-Befehle aus der Doku eingibt.
Dafür habe ich schon schöne, funktionierende Beispiele gesehen, zum Beispiel eine Kursbuchung per E-Mail („Gerne melde ich mich an für den Kurs am 01.10.25 um 15:00.“) oder einen Chatbot, welcher den Stundenplan abfragen kann („Findet die Turnstunde der 3f nächsten Freitag statt?“).
Ein erfrischend nüchterner und vor allem realistischer Test. Wofür Agenten aktuell wirklich gut sind:
Für „Kommentiere mit AGENT“ Clickbaits bei LinkedIn. Die gehen alle viral durch die Decke bzw. müllen täglich den Feed zu, weil alle unerbittlich darauf hereinfallen.
Vielleicht sollte ich einen Agenten schreiben, der mir diese automatisch entfernt. 😉
Sehr interessanter Punkt, danke! (Von Hand kommentiert.)
Tja!.. An alle Die Krimifreak sind,sind Sie auf diesem Artikel richtig.