Etwas traurig war ich schon, als neulich eine Website aus dem Web verschwand, für die ich mehr als zwanzig Jahre lang gearbeitet hatte: Publisher.ch. Bei der gleichnamigen Fachzeitschrift hatte ich 1996 meinen Einstand. 2019 wurde sie verkauft und es gab eine neue Redaktion, der ich nicht mehr angehörte. Der Käufer, die Pantara GmbH, musste 2023 Insolvenz anmelden. Die Website wurde in der Hoffnung auf eine Nachfolgelösung weiterbetrieben. Doch Anfang 2025 war endgültig Schluss; der Server ging vom Netz. Inzwischen läuft unter der alten Adresse ein neues Programm.
Ich erzähle das hier nicht, um mit euch der Vergänglichkeit der Dinge nachzutrauern, sondern weil sich daraus ein interessantes Problem ergibt. Ich habe hier im Blog in der Linkpost-Rubrik jeweils meine «Publisher»-Artikel aufgeführt. Mit dem Verschwinden der Original-Site gehen Hunderte Links ins Leere.
Gute Gründe, die alten Verbindungen zu kappen
Publisher.ch in der neuen Form will ich keine Klicks zuführen: Die Website wird jetzt laut Impressum aus Tallinn betrieben. Das wäre per se kein Problem, aber bei diversen Artikeln, die dort heute veröffentlicht werden, schlägt mein KI-Radar an. Als Autor zeichnet bei den meisten Artikeln ein Herr oder Frau «Petersilie».

Auf der «About»-Website ist immerhin ein Name zu lesen, der echt klingt: Lukas Mayer.
Er sei ein «leidenschaftlicher Experte im Bereich Verlagswesen und digitaler Druck». Und mit über 15 Jahren Erfahrung würde er uns helfen, «auf dem neuesten Stand der industriellen Innovationen zu bleiben».
Aber ist Herr Mayer echt? Das Bild, das er von sich veröffentlicht, weckt Zweifel. Wer es, wie ich, herunterlädt, findet den Beweis, dass es von einem Bildgenerator stammt, schon im Dateinamen¹. Der KI-Detektor Sight Engine bestätigt: Dieses angebliche Foto ist zu 99 Prozent mit der Flux-KI generiert.


Ein Blick ins Impressum wirft mehr Fragen auf, als es Antworten gibt:

Nebst dem fehlenden Namen frage ich mich, warum eine Website mit Schweizer CH-Domain, die in Estland domiziliert ist, sich auf den deutschen Medienstaatsvertrag bezieht.
Das Unternehmen, das die Website betreibt, ist Tonotaco, mit einem Kapital von einem Euro. Als Geschäftsführer ist ein Mann eingetragen, der gemäss einer kurzen Google-Suche diverse andere Geschäfte am Laufen hat. Tonotaco selbst ist im schillernden Geschäft der Suchmaschinenoptimierung tätig. Mit all diesen Indizien verdichtet sich der Verdacht, dass auch die Domain Publisher.ch diesem Zweck dient². Das allein ist ein Grund, die Links dorthin zu kappen.
Was tun mit den vielen alten Links?
Aber nach dieser kleinen Fingerübung in Medienkompetenz wenden wir uns der eigentlichen Frage zu: Was tun wir mit so vielen toten Links?
Die naheliegendste Lösung ist, sie aufs Internet Archive (Archive.org) umzubiegen. Das ist dieses grossartige Projekt, bei dem Milliarden von Websites gespiegelt werden und Inhalte aufzufinden sind, die es eigentlich längst nicht mehr gibt.
Nur: Wie machen wir das möglichst effizient?
Wenn wir uns ansehen, wie eine Archiv-URL bei Archive.org funktioniert, dann fällt uns auf, dass der alten Adresse quasi eine neue vorangestellt wird. Aus https://publisher.ch wird https://web.archive.org/web/20240208142746/https://publisher.ch/.
Diese Änderung liesse sich sehr einfach mit einem regulären Ausdruck erledigen; in Wordpress etwa mit der wunderbaren Erweiterung Search Regex (siehe auch Perfektion hat ihren Preis) – wäre da nicht diese lange Nummer inmitten der Adresse. Diese gibt an, wann die Seite archiviert wurde. Und diese Information müsste mühsam eruiert werden.

Trick 77 für Archive.org
Die gute Nachricht: Es funktioniert oft auch ohne die Datumsangabe; also nach dem folgenden Muster:
https://web.archive.org/web/[alte URL]
Ich habe es für einige Beispiele durchexerziert, etwa für diesen Artikel hier oder für den hier. Das Internet Archive liefert dann die zuletzt archivierte Version zurück. Ein Extratrick: Indem wir die Nummer durch einen Platzhalter (Wildcard) ersetzen, erhalten wir eine Liste mit allen archivierten Varianten; wie bei diesem Beispiel:
https://web.archive.org/web/*/https://publisher.ch/[Artikel-Deeplink]
Diese Änderung lässt sich mithilfe eines regulären Ausdrucks in ein paar Minuten vornehmen³. Ich habe in meinem Artikelarchiv entsprechend durchexerziert: Dort gab es seinerseits nämlich Hunderte Links auf publisher.ch.
Es gibt auch die Möglichkeit, über ein Script den Link mit Archivdatum zu ermitteln. Dabei kommt die CDX-API zum Zug. Die Details dazu erspare ich euch hier, weil die erstens vom spezifischen Anwendungsfall abhängen und zweitens in Zeiten von künstlicher Intelligenz locker von ChatGPT oder Claude geliefert werden können. Wenn ihr sie nett fragt, liefern diese Bots euch auch gerne ein Skript, das solche Umschreibungen im grossen Stil erledigt.
So grossartig das ist, hat die Sache leider mehrere Haken. Zwei sind mir aufgefallen:
- Auf Archive.org sind nicht alle Seiten archiviert.
- Und bedauerlicherweise ist nicht jede URL ein Permalink.
Im Fall von Publisher.ch enthielten die Original-URLs optionale Parameter. Ich habe die hier im Blog weggelassen. Doch wie sich zeigt, sind sie fürs Auffinden bei Archive.org notwendig. Eine automatisierte Reparatur der toten Links ist damit via Archive.org hinfällig. Also kein Happy-End für mich?
Eine zweite Methode, nur für mich
Doch. Zum Glück bietet sich eine alternative Lösung an. Die ist mir persönlich sogar lieber; aber sie ist leider nicht universell einsetzbar. Sie basiert auf dem Projekt 2020: Bei dem hatte ich die Idee, mein Artikel-Archiv aus einer Access-Datenbank ins Web zu überführen. Das klappte mit zwei Jahren Verspätung denn auch, sodass alle meine Publisher-Artikel jetzt unter archiv.matthiasschuessler.ch abzurufen sind – immerhin geschlagene 2719 Stück.
Es liegt auf der Hand, die Publisher.ch-Adressen auf mein Archiv umzuleiten. Leider funktioniert das nicht direkt, da die Artikel auf Publisher.ch über IDs gefunden wurden, die nichts mit den URLs meiner meiner Artikeldatenbank zu tun haben. Der Aufwand eines manuellen Abgleichs wäre riesig und sogar für mich als Perfektionisten zu hoch.
Ich komme zum Glück ohne Handarbeit davon: Da ich in den meisten Fällen den Titel des Beitrags aufgeführt und verlinkt habe, lässt sich dieser Titel als Suchbegriff übergeben. Oft steht der gewünschte Kandidat zuoberst in der Resultatliste (zum Beispiel bei den Links hier). Diese Methode ist nicht perfekt:
- Es gibt Fälle, bei denen der Titel hier im Blog nicht hinterlegt ist. Sie werden mit dieser Methode nicht gefunden.
- Und falls sie gefunden werden, braucht es für den Aufruf des Artikels einen Extraklick in der Resultateliste. Aber da Archive.org notorisch langsam ist, führt diese Methode trotzdem schneller ans Ziel.
Die Korrektur hat sich mit dem oben erwähnten Search-Regex-Plug-in in Wordpress in einer Viertelstunde erledigen lassen⁴. Wir lernen: Der Kampf gegen tote Links im Web ist eine Sisyphus-Arbeit. Aber sie lohnt sich!
Fussnoten
1) Der Dateiname lautet Flux_Dev_The_chief_editor_of_the_website_publisherch_a_beacon__1.jpeg. Flux ist der Name eines bekannten Bildgenerators, der für seine realistischen Bilder bekannt ist und den ich hier getestet habe. ↩
2) Die Methode, Glaubwürdigkeit mittels fiktiver Ansprechpartner, Kunden und Testimonials zu erzeugen, konnte ich im SEO-Kontext bereits nachweisen; die Details finden sich im Beitrag Neuigkeiten zu den «Google Champions aus Mannheim».
Einen endgültigen Beweis besitze ich nicht, dass Publisher.ch inzwischen nur noch dem Zweck dient, das Google-Ranking zu beeinflussen. Es gibt jedoch auch inhaltliche Indizien. Als Beispiel sei der Beitrag Top 10 Videobearbeitungsprogramme für Anfänger und Profis genannt, der als Vergleich von iMovie, Adobe Premiere Pro und Davinci Resolve aufgezogen ist, und auf mich so wirkt, als sollte es darum gehen, ein Programm namens Filmora in einem für Google idealen Umfeld in ein gutes Licht zu rücken. ↩
3) Die Suche mittels Search-Regex-Plug-in verwendet folgenden Suchbegriff:
<a href="(https?:\/\/(?:.*?\.)?publisher\.ch)
Der Verweis auf Archive.org wird nun mit folgendem Term im Ersetzen-Feld erzeugt:
<a href="https://web.archive.org/web/*/$1
Wie immer gilt: Es kann leicht etwas schiefgehen. Darum bitte unbedingt vorher ein Backup anfertigen! ↩
4) Ich habe nach folgendem Text gesucht:
<a\s+href=["']https:\/\/publisher\.ch\/(.*?)["'][^>]*>(.*?)<\/a>
Und ich habe ihn wie folgt ersetzt:
<a href="https://archiv.matthiasschuessler.ch/?s=$2" title="Original-URL: $1">$2</a>
Wie man sieht, bin ich auf die Idee verfallen, die Original-URL aufzubewahren und dafür den Title-Parameter zu missbrauchen. Der Hintergedanke ist, dass ich so die Möglichkeit hätte, doch noch etwas mit dieser Original-URL anzustellen, falls ich irgendwann eine andere Lösung ausprobieren wollte. ↩
Beitragsbild: Irgendwie muss es weitergehen (Sean Foster, Unsplash-Lizenz).