Etwas traurig war ich schon, als neulich eine Website aus dem Web verschwand, für die ich mehr als zwanzig Jahre lang gearbeitet hatte: Publisher.ch. Bei der gleichnamigen Fachzeitschrift hatte ich 1996 meinen Einstand. 2019 wurde sie verkauft und es gab eine neue Redaktion, der ich nicht mehr angehörte. Der Käufer, die Pantara GmbH, musste 2023 Insolvenz anmelden. Die Website wurde in der Hoffnung auf eine Nachfolgelösung weiterbetrieben. Doch Anfang 2025 war endgültig Schluss; der Server ging vom Netz. Inzwischen läuft unter der alten Adresse ein neues Programm.
Ich erzähle das hier nicht, um mit euch der Vergänglichkeit der Dinge nachzutrauern, sondern weil sich daraus ein interessantes Problem ergibt. Ich habe hier im Blog in der Linkpost-Rubrik jeweils meine «Publisher»-Artikel aufgeführt. Mit dem Verschwinden der Original-Site gehen Hunderte Links ins Leere.
Gute Gründe, die alten Verbindungen zu kappen
Publisher.ch in der neuen Form will ich keine Klicks zuführen: Die Website wird jetzt laut Impressum aus Tallinn betrieben. Das wäre per se kein Problem, aber bei diversen Artikeln, die dort heute veröffentlicht werden, schlägt mein KI-Radar an. Als Autor zeichnet bei den meisten Artikeln ein Herr oder Frau «Petersilie».

Ein Blick ins Impressum wirft mehr Fragen auf, als es Antworten gibt:

Nebst dem fehlenden Namen frage ich mich, warum eine Website mit Schweizer CH-Domain, die in Estland domiziliert ist, sich auf den deutschen Medienstaatsvertrag bezieht.
Das Unternehmen, das die Website betreibt, ist Tonotaco, mit einem Kapital von einem Euro. Als Geschäftsführer ist ein Mann eingetragen, der gemäss einer kurzen Google-Suche diverse andere Geschäfte am Laufen hat. Tonotaco selbst ist im schillernden Geschäft der Suchmaschinenoptimierung tätig, sodass die Vermutung naheliegt, dass auch die Domain Publisher.ch nun diesem Zweck dient¹. Das allein ist für mich ein Grund, die Links dorthin zu kappen.
Was tun mit den vielen alten Links?
Aber nach dieser kleinen Fingerübung in Medienkompetenz wenden wir uns der eigentlichen Frage zu: Was tun wir mit so vielen toten Links?
Die naheliegendste Lösung ist, sie aufs Internet Archive (Archive.org) umzubiegen. Das ist dieses grossartige Projekt, bei dem Milliarden von Websites gespiegelt werden und Inhalte aufzufinden sind, die es eigentlich längst nicht mehr gibt.
Nur: Wie machen wir das möglichst effizient?
Wenn wir uns ansehen, wie eine Archiv-URL bei Archive.org funktioniert, dann fällt uns auf, dass der alten Adresse quasi eine neue vorangestellt wird. Aus https://publisher.ch wird https://web.archive.org/web/20240208142746/https://publisher.ch/.
Diese Änderung liesse sich sehr einfach mit einem regulären Ausdruck erledigen; in Wordpress etwa mit der wunderbaren Erweiterung Search Regex (siehe auch Perfektion hat ihren Preis) – wäre da nicht diese lange Nummer inmitten der Adresse. Diese gibt an, wann die Seite archiviert wurde. Und diese Information müsste mühsam eruiert werden.

Trick 77 für Archive.org
Die gute Nachricht: Es funktioniert oft auch ohne die Datumsangabe; also nach dem folgenden Muster:
https://web.archive.org/web/[alte URL]
Ich habe es für einige Beispiele durchexerziert, etwa für diesen Artikel hier oder für den hier. Das Internet Archive liefert dann die zuletzt archivierte Version zurück. Ein Extratrick: Indem wir die Nummer durch einen Platzhalter (Wildcard) ersetzen, erhalten wir eine Liste mit allen archivierten Varianten; wie bei diesem Beispiel:
https://web.archive.org/web/*/https://publisher.ch/[Artikel-Deeplink]
Es gibt auch die Möglichkeit, über ein Script den Link mit Archivdatum zu ermitteln. Dabei kommt die CDX-API zum Zug. Die Details dazu erspare ich euch hier, weil die erstens vom spezifischen Anwendungsfall abhängen und zweitens in Zeiten von künstlicher Intelligenz locker von ChatGPT oder Claude geliefert werden können. Wenn ihr sie nett fragt, liefern diese Bots euch auch gerne ein Script, das solche Umschreibungen im grossen Stil erledigt.
So grossartig das ist, hat die Sache leider mehrere Haken. Zwei sind mir aufgefallen:
- Auf Archive.org sind nicht alle Seiten archiviert.
- Und bedauerlicherweise ist nicht jede URL ein Permalink.
Im Fall von Publisher.ch enthielten die Original-URLs optionale Parameter. Ich habe die hier im Blog weggelassen. Doch wie sich zeigt, sind sie fürs Auffinden bei Archive.org notwendig. Eine automatisierte Reparatur der toten Links ist damit via Archive.org hinfällig. Also kein Happy-End für mich?
Eine zweite Methode, nur für mich
Doch. Zum Glück bietet sich eine alternative Lösung an. Die ist mir persönlich sogar lieber; aber sie ist leider nicht universell einsetzbar. Sie basiert auf dem Projekt 2020: Bei dem hatte ich die Idee, mein Artikel-Archiv aus einer Access-Datenbank ins Web zu überführen. Das klappte mit zwei Jahren Verspätung denn auch, sodass alle meine Publisher-Artikel jetzt unter archiv.matthiasschuessler.ch abzurufen sind – immerhin geschlagene 2719 Stück.
Es liegt auf der Hand, die Publisher.ch-Adressen auf mein Archiv umzuleiten. Leider funktioniert das nicht direkt, da die Artikel auf Publisher.ch über IDs gefunden wurden, die nichts mit den URLs meiner meiner Artikeldatenbank zu tun haben. Der Aufwand eines manuellen Abgleichs wäre riesig und sogar für mich als Perfektionisten zu hoch.
Ich komme zum Glück ohne Handarbeit davon: Da ich in den meisten Fällen den Titel des Beitrags aufgeführt und verlinkt habe, lässt dieser Titel sich als Suchbegriff übergeben. Oft steht der gewünschte Kandidat zuoberst in der Resultatliste (zum Beispiel bei den Links hier). Diese Methode ist nicht perfekt:
- Es gibt Fälle, bei denen der Titel hier im Blog nicht hinterlegt ist. Sie werden mit dieser Methode nicht gefunden.
- Und falls sie gefunden werden, braucht es für den Aufruf des Artikels einen Extraklick in der Resultateliste. Aber da Archive.org notorisch langsam ist, führt diese Methode trotzdem schneller ans Ziel.
Die Korrektur hat mit der oben erwähnten Search Regex-Plugin in Wordpress in einer Viertelstunde erledigen lassen². Wir lernen: Der Kampf gegen tote Links im Web ist eine Sisyphus-Arbeit. Aber sie lohnt sich!
Fussnoten
1) Es ist eigentlich mehr als eine Vermutung. Es konkrete Anhaltspunkte für die SEO-These, aber natürlich ohne, dass ich irgend etwas beweisen könnte. Als Beispiel sei der Beitrag Top 10 Videobearbeitungsprogramme für Anfänger und Profis genannt, der als Vergleich von iMovie, Adobe Premiere Pro und Davinci Resolve aufgezogen ist, auf mich so wirkt, als sollte darum gehen, ein Programm namens Filmora in einem für Google idealen Umfeld in ein gutes Licht zu rücken. ↩
2) Ich habe nach folgendem Text gesucht:
<a\s+href=["']https:\/\/publisher\.ch\/(.*?)["'][^>]*>(.*?)<\/a>
Und ich habe ihn wie folgt ersetzt:
<a href="https://archiv.matthiasschuessler.ch/?s=$2" title="Original-URL: $1">$2</a>
Wie man sieht, bin ich auf die Idee verfallen, die Original-URL aufzubewahren und dafür den Title-Parameter zu missbrauchen. Der Hintergedanke ist, dass ich so die Möglichkeit hätte, doch noch etwas mit dieser Original-URL anzustellen, falls ich irgendwann eine andere Lösung ausprobieren wollte. ↩
Beitragsbild: Irgendwie muss es weitergehen (Sean Foster, Unsplash-Lizenz).