Überfüllter Müllcontainer in einer blühenden Wiese, mit verstreutem Müll. Im Hintergrund Wald und blauer Himmel mit wenigen Wolken.

Wie viel Datenmüll gibt es im Web?

Ein Problem, für das sich nie­mand interessiert? Die Such­ma­schi­nen­op­ti­mie­rung hat einen rie­si­gen Ein­fluss auf das mo­der­ne Web, aber kein For­scher hat sich die Mühe ge­macht, das Aus­mass zu un­ter­suchen.

Passiert euch das auch? Ich begegne in letzter Zeit im Netz ständig Inhalten, die gar nicht für mich oder irgendeinen anderen Menschen bestimmt sind. Das Zielpublikum ist eine Maschine; ein sogenannter Webcrawler.

Von denen gibt es eine ganze Menge¹, doch die grosse Aufmerksamkeit geniesst ein einziger «Kriecher». Er bildet das Web für die Suchmaschine von Google ab. Seine Befunde bestimmen, was bei Google in den Suchresultaten auftaucht – und an welcher Position. Das macht den Googlebot so attraktiv, dass unzählige sogenannte Suchmaschinenoptimierer (SEO) riesige Anstrengungen darauf verwenden, kleine Beutestücke auszulegen. Falls der Googlebot sie schluckt, hat das zur Folge, dass ein bestimmtes Produkt, ein Unternehmen oder vielleicht auch eine Person in den Resultaten ein bisschen nach oben rückt.

Der Müll stinkt nicht und er nimmt auch keinen Platz weg

Sind diese für Maschinen gemachten Inhalte ein Problem? Man kann sie als eine Art digitale Umweltverschmutzung betrachten. Aber anders als Abfall in der echten Welt nimmt der «SEO-Müll» im Netz keinen Platz weg. Er stinkt nicht und man kann ihn einfach ignorieren.

Kurzer Einschub: Um die Metapher nicht zu überstrapazieren, werde ich in der Folge nicht von «Müll», sondern neutral von SEO-Inhalten sprechen.

Was die Frage angeht: Ja, die SEO-Inhalte sind ein Problem. Sie verfälschen Resultate und verringern die Qualität nicht nur von Google, sondern auch von Bing, Duck Duck Go und den anderen klassischen Suchmaschinen. Und sie verschlechtern auch das Netz selbst. Bedauerlicherweise ist es nicht so, dass SEO-Inhalte immer erkennbar wären. Im Gegenteil, sie werden mit allen Mitteln kaschiert. Zu den Tarn-Methoden gehören folgende:

  • Der «Müll» wird unter qualitativ gute Inhalte gemischt: Hier die Beispiele von «Mashable» und von Claude Longchamp.
  • Eine renommierte Website verschwindet und unter der alten Adresse taucht eine digitale Abfallhalde auf: exemplarisch dafür steht publisher.ch.
  • Es werden Websites in grösserer Zahl mit überschneidenden Inhalten ins Web gestellt. Ein Beispiel dafür ist das angebliche KI-Journalismus-Projekt der First Consulenza AG aus Basel, über das ich im letzten Jahr einen Mehrteiler schrieb (Teil 1, Teil 2 und Teil 3).
  • Es existiert eine Reihe von technischen Tricks: Texte und Links werden mittels CSS versteckt, hinter Bildern platziert oder in Kommentaren untergebracht, wo sie Menschen nicht auffallen.

Vor allem aber werden Bloggerinnen, Internetpublizisten und Medienplattformen korrumpiert. Wie das abläuft, habe ich anhand von Angeboten von SEO-Unternehmen wie Trustfactory und UK Linkology dokumentiert.

Ein Problem, für das sich kaum einer interessiert

Drei Fragen bleiben, nämlich: Wie gross ist das Problem? Wie viele SEO-Inhalte gibt es im Netz? Und: Lässt sich das überhaupt quantifizieren?

Erstaunlicherweise gibt es darauf keine guten Antworten. Niemand scheint eine Studie dazu durchgeführt zu haben, obwohl es offensichtlich ein Aspekt ist, der das Web ganz direkt betrifft. Und da das Web das wichtigste Instrument zur globalen Informationsvermittlung ist, sollte man meinen, dass wir diesen Einfluss kennen und verstehen sollten.

Ich habe versucht, mich einer Antwort wenigstens anzunähern. Bei der Cornell University habe ich ein Paper von Ende März gefunden, bei dem es um den Anteil der KI-generierten Inhalte im Web geht:

Durch die Analyse der Häufigkeit bestimmter Schlüsselwörter, die häufig von ChatGPT verwendet werden, zeigt diese Arbeit, dass solche sprachlichen Marker effektiv genutzt werden können, um das Vorhandensein generativer KI-Inhalte im Internet zu schätzen. Die Ergebnisse deuten darauf hin, dass mindestens dreissig Prozent der Texte auf aktiven Webseiten aus KI-generierten Quellen stammen, wobei der tatsächliche Anteil wahrscheinlich bei vierzig Prozent liegt.

Zurück zur SEO: Es wäre falsch, KI-generierte Inhalte mit SEO-Content gleichzusetzen. Es werden auch Texte, die sich an Menschen richten, mit künstlicher Intelligenz hergestellt. Umgekehrt existiert die Suchmaschinenoptimierung schon länger als ChatGPT, sodass noch viele handgefertigte SEO-Texte auf irgendwelchen Webservern liegen.

Alle tun es – aber keiner spricht darüber

Darum erlaube ich mir, mich für eine grobe Einordnung an diesen Zahlen zu orientieren und hier zu konstatieren, dass das Ausmass wahrscheinlich grösser ist, als der breiten Internet-Nutzerschaft bewusst ist.

Weitere Indizien stützen diese Vermutung:

  • Ich habe in den letzten zwei Jahren über dreihundert Anfragen für «Gastartikel», «sponsored content», «Collaborations» und «Link insertions» bekommen. Das bedeutet, dass es Tausende von sogenannten «Outreach-Spezialisten» gibt, die das Netz nach Websites wie meiner abgrasen. Dieses Geschäft kann sich nur lohnen, wenn ein nennenswerter Teil der Anfragen zu einem Geschäftsabschluss und zur Veröffentlichung eines SEO-Inhalts führt.
  • Ein grosser Teil der Unternehmen scheint SEO-Massnahmen einzusetzen. Die Angaben variieren stark – zwischen fünfzig und 75 Prozent –, und sie stammen ausnahmslos von SEO-Unternehmen, die alles Interesse daran haben, die Verweigerer unter den Unternehmen als rückständige Minderheit zu brandmarken. Unter dem Strich bleibt der Eindruck, dass die Suchmaschinenoptimierung einen festen Bestandteil vieler Marketingstrategien bildet und einen erheblichen Teil des Budgets verschlingt.

Ein Unternehmen gibt es natürlich, das recht genau Bescheid wissen dürfte. Ich spreche – natürlich – von Google. Ich bin überzeugt, dass die Entwickler und Expertinnen, die die Suchmaschine betreiben, eine klare Vorstellung von der Dimension des Problems haben. Sie lassen gelegentlich auch durchblicken, auf welche unsauberen Tricks man beim SEO besser verzichtet. Aber gegenüber der Weltöffentlichkeit hat Google kein Interesse, Transparenz zu schaffen: Denn natürlich sollen die Nutzerinnen und Nutzer das Gefühl haben, die Google-Suchmaschine sei weiterhin ein neutraler, unbestechlicher Vermittler des Web.

Ein Web ohne SEO wäre viel benutzerfreundlicher

Die Suchmaschinen-Ingenieure haben auch Mittel und Wege, korrigierend einzugreifen: Sie setzen den Manipulationsversuchen Grenzen und sorgen dafür, dass die Google-Suche die andauernden Beeinflussungsversuche nicht allzu deutlich widerspiegelt. Das heisst aber nicht, dass sie nicht tiefe Spuren hinterlassen.

Im Gegenteil: Wir dürfen uns sicher sein, dass das Web deutlich anders aussehen würde, wenn es nur für uns Menschen und nicht zu einen grossen Teil für Maschinen gemacht wäre. Vielleicht wäre es dem Internet des Jahres 2000 ähnlicher als dem Netz von 2025.

Das könnte erst der Anfang sein

Und ja: Im April habe ich der Hoffnung Ausdruck verliehen, die künstliche Intelligenz könne das SEO-Problem bald zum Verschwinden bringen. Inzwischen bin ich nicht mehr so optimistisch. Denn rufen wir uns das Paper der Cornell University noch einmal kurz in Erinnerung: Fast die Hälfte der Texte im Web seien bereits KI-generiert, steht dort.

Das ist eine unfassbare Menge. Wenn sich ChatGPT und Co. im gleichen Tempo weiter ausbreiten, werden die menschengemachten Texte bald völlig untergehen. Dann werden wir es mit einem Problem zu tun bekommen, das in diesem Paper als «autophagische Schleife» bezeichnet wird. Die Bezeichnung besagt, dass Sprachmodelle schnell abbauen, wenn sie mit Texten von Sprachmodellen trainiert werden. Man spricht auch von der «degenerativen KI-Krankheit».

Das heisst: Im Web steht dann nur noch degenerierter Schrott – aber so viel davon, dass man nichts anderes mehr findet. Vermüllung abgeschlossen.

Fussnoten

1) Diese Maschinen tummeln sich in Heerscharen im Netz. Als «künstliche Surfer» sind sie längst in der Mehrheit. Schon vor sechs Jahren wies ich anhand dieses Blogs hier nach, dass der meiste Traffic von automatisierten Programmen stammt. Bei den grösseren Plattformen ist ihr Anteil nicht ganz so hoch. Doch auch dort sind sie gegenüber den menschlichen Usern in der Mehrheit. Inzwischen hat sich das Missverhältnis noch vergrössert. Denn viele neue Bots sind beschäftigt, Inhalte fürs Training von KI-Sprachmodellen einzusammeln.

Beitragsbild: Das Web – Symbolbild (TheDigitalArtist, Pixabay-Lizenz).

3 Kommentare zu «Wie viel Datenmüll gibt es im Web?»

  1. Ich dachte bei dem Thema an grosse Daten die ungenutzt und veraltet herum liegen. Mailanhänge, bilder in chats und auf sicherheitslaufwerken, due mit sicherheit nie meh ein mensch braucht aber speicher wegnehmen. Mir aber zeit weil ich doch mal wieder danach suche zum löschen

    1. Auch ein schönes Thema! Mir geht es genauso, dass ich auf meinen privaten Datenträgern für Ordnung sorge, mich in der Cloud aber keinen Deut darum schere (abgesehen bei der iCloud, bei der ich nicht in die nächste Preisstufe reinrutschen will).
      Das kommt auf alle Fälle auf die Liste!

  2. Es ist mühsam, auch wenn man mit der Zeit lernt, schlechte Inhalte schon vor dem Klick auf das Suchresultat zu erkennen. So ist auf einer Seite, deren Titel mit „[solved] 2025“ beginnt, eher nicht die gesuchte Lösung für ein Problem zu finden. Ebenso wenig helfen Seiten wie „pstconverter.xy“ bei Outlook-Problemen weiter.

    Ich sehe darin aber eine Chance: Seit die Suchresultate immer schlechter werden, steuere ich gezielt bestimmte Quellen an. Die Reputation einer Quelle wird wichtiger. (In diesem Zusammenhang ärgere ich mich jeweils, wenn eine etablierte Online-Redaktion auf der Jagd nach einfachen Klicks ihre Prinzipien vergisst und ohne Prüfung ein „virales“ Video verlinkt. So geschehen beim vermeintlich unfreiwilligen Höhenrekord eines chinesischen Gleitschirmfliegers. Reputation baut man langsam auf, aber sie ist schnell zerstört.)

Kommentar verfassen