Im Internet ist nichts für ewig, haben wir schon vor einiger Zeit festgestellt. Viele Websites verschwinden aus dem Netz, weil der Betreiber das Zeitliche segnet und der Hoster den Server abschaltet, wenn niemand mehr die Rechnung begleicht.
Todesfälle sind nicht der einzige Grund, wenn Inhalte aus dem Web verschwinden. Eine häufige Ursache besteht auch darin, dass die Leute nicht mehr gewillt sind, den Aufwand zu betreiben, der notwendig ist, um eine Site technisch und in Sachen Sicherheit auf der Höhe der Zeit zu halten. Gerade Content-Management-Systeme sind diesbezüglich türkisch. Wenn man sich für ein Produkt entschieden hat, dass nicht mehr aktualisiert wird, bleiben oft nur zwei Optionen: Entweder mit viel Aufwand eine Migration zu einem neuen System durchzuführen oder aber die Site vom Netz zu nehmen.
Ich stand vor einiger Zeit wegen dieses Blogs hier genau vor dieser Frage: Ich habe damals mit viel Schweiss und einigen Tränen eine Migration zu Wordpress durchgezogen, sodass Clickomania.ch für die nächsten fünf, zehn Jahre gerüstet sein sollte.
Doch schon früher hatte ich Ausfälle zu vermelden. Die Anfänge meines Podcast-Schaffens sind im Orkus verschwunden, weil die dazugehörenden Websites nicht mehr weiterbetrieben wurden. Das war erstens der «Digitalk», den ich mit meinem damaligen «Tagesanzeiger»-Kollegen Roger Zedi ab 2006 produziert habe. Dieser Podcast wurde von einem Anbieter namens Kaywa gehostet, den es nicht mehr gibt.
Annihilation statt Migration
In Luft aufgelöst haben sich auch die Folgen eins bis 353 des Digitalmagazins, wie unser Tech-Podcast von Radio Stadtfilter, der heute unter dem Namen Nerdfunk läuft, bis Juli 2016 hiess. Damals gestaltete Radio Stadtfilter seine Website neu und verwandte keine Mühe darauf, die alten Inhalte zu migrieren.

Damit die alten Sendungen nicht gänzlich verloren sind, habe ich sie über Microsofts Onedrive ins Netz gestellt (hier und hier). Das war aber weder elegant noch benutzerfreundlich und ich habe mich immer an der Behelfsmässigkeit dieser Lösung gestört. Denn auch wenn die alten Folgen nurmehr historischen Wert habe, so bin ich dennoch der Ansicht, dass sie der Nachwelt erhalten bleiben sollten. Erstens, weil es im Internet genügend Platz gibt und zweitens, weil es Spass macht, in der Vergangenheit zu graben.

Nun habe ich in der letzten Zeit Gelegenheit, Wordpress-Erfahrungen zu sammeln und insbesondere herauszufinden, wie man alte Inhalte in dieses CMS hineinbekommt. Nebst dem Blog hier habe ich das für ein Gemeinde-Mitteilungsblatt und für meine Artikeldatenbank durchexerziert. Darum kam ich auf die Idee, dass der dort angewandte Trick auch für die alten Podcast-Folgen funktionieren könnte.
Der Trick ist immer der Gleiche: Die Informationen, die übernommen werden sollen, müssen in tabellarischer Form vorliegen. Dann ist es nämlich möglich, sie nach Wordpress zu importieren, wobei automatisch für jede Tabellenzeile ein eigener Beitrag erzeugt wird – ohne dass man das für Hunderte oder Tausende Einträge von Hand erledigen müsste. Es gibt diverse Plugins, die das tun, aber ich habe gute Erfahrungen mit WP All Import gemacht. Dieses Plugin stelle ich ausführlich hier vor.
Die Metadaten für den Wordpress-Import aufbereiten
Doch wie bekommt man die Informationen für die alten Podcastfolgen in eine Tabelle hinein, die sich in der Folge importieren lässt?
Das ist die entscheidende Frage, zumal ich weder für den Digitalk noch für das Digitalmagazin die Beschreibungen systematisch archiviert habe. Zum Glück gibt es die Audiodateien selbst noch. Und die enthalten Metadaten, in denen fast alle notwendigen Informationen stecken.

Allerdings muss ich diese Metadaten, damit ich sie verwenden kann, in eine Tabelle hineinbekommen. Dabei hilft eine Software, die ich vor Urzeiten vorgestellt habe. Sie heisst MP3tag. Im Menü befindet sich der Befehl Datei > Export, der die Metadaten der ausgewählten Dateien in mehreren Formaten speichert; HTML, RTF, TXT und CSV stehen zur Verfügung, ausserdem SFV. Dieses Format namens Simple File Verification erstellt Prüfsummen, anhand derer man kontrollieren kann, ob die Dateien noch intakt sind.
Ich habe erst mit CSV experimentiert, dann aber gemerkt, dass HTML einfacher zu handhaben ist: Dieses Format exportiert eine Webdatei mit einer Tabelle, die sich kopieren und in Excel einfügen lässt.
Welche Informationen exportiert werden, legt man über MTE-Dateien fest, die im Ordner %appdata%\Mp3tag\export zu finden sind und mit einer Art Scriptsprache den Export steuern. Viele der Informationen wie Künstler, Album, Erscheinungsjahr, Label etc., die für Musikdateien relevant sind, brauche ich für meine Zwecke nicht. Mir reichen Tracknummer, die die Episoden-Zahl angibt, Titel, Beschreibung und Dateiname. Die stecken in den Variablen %track%, %title%, %comment% und %_filename_ext%.
Damit sind alle Versatzstücke vorhanden, bis auf eines. Mir fehlt das Datum, an dem eine Podcast-Folge veröffentlicht wurde. Mit der soll der Wordpress-Artikel datiert werden. Diese Information ist in den Tags der Audiodatei nicht enthalten.
Geheimtipp: Dateien datieren
Aber sie steckt (im Idealfall) in den Dateiinformationen, nämlich im Erstelldatum. Damit man sie nicht von Hand in die Tabelle eintragen muss, lassen sich die Dateien entsprechend benennen: Ich empfehle, den Dateien einen Code aus Jahr, Monat und Tag voranzustellen, siehe hier und hier.

Falls die Dateinamen keinen solchen Code enthalten, kann man sie automatisiert ergänzen. Ich empfehle zu diesem Zweck Ant Renamer (Dateinamensfragen klären). Um einen Datums-Präfix zu ergänzen, wählt man in diesem Programm unter Bearbeiten den Eintrag Datum & Zeit und gibt den Code yymmdd fe an. Das Muster yymmdd setzt das Datum ein, fe stellt den ursprünglichen Dateinamen und die Erweiterung hinten an.
Bei einigen wenigen Audiodateien war, warum auch immer, das Erstellungsdatum falsch. Bei diesen habe ich es bei den Dateien im AAC-Format (M4A) in dem (via MP3tag nicht zugänglichen) Feld Medium erstellt gefunden. Ich nehme an, dass das verdienstvollerweise bei der Erstellung durch GarageBand eingefügt worden ist. Man sieht die Angabe, wenn man in Windows die Dateieigenschaften aufruft, den Reiter Details wählt und zum Abschnitt Ursprung scrollt. Man kann es auch im Windows Explorer als separate Spalte anzeigen, indem man mit der rechten Maustaste auf den Spaltenkopf klickt, Weitere aus dem Kontextmenü auswählt und dort Medium erstellt anhakt.

Via Excel die Audiodateien einbetten
Nachdem alle Dateien entsprechend benannt sind, lässt sich die Tabelle via Excel für den Wordpress-Import aufbereiten. Ich habe, wo vorhanden, die ausführliche Beschreibung ergänzt.

Im nächsten Schritt habe ich über eine Formel¹ das Datum für den Blogpost aus dem Dateinamen herausgezogen. Ausserdem lässt sich bei jeder Beschreibung am Ende eine Zeile ergänzen², die dafür sorgt, dass im zugehörigen Blogpost die Audiodatei eingebettet wird, damit die sich direkt aus dem Beitrag abspielen lässt. Ach ja, für diesen Zweck müssen diese Audiodateien auf dem Webserver deponiert werden – aber das versteht sich von selbst.

Mit der im CSV-Format exportierten Datei klappt es nun reibungslos, die alten Podcasts auf der Nerdfunk-Website auferstehen zu lassen: hier die Folgen des Digitalmagazins, hier der Digitalk.
Was im Anschluss noch etwas Arbeit machte, war die Korrektur der Links hier im Blog und innerhalb der Nerdfunk-Website. Da die Adressen der Beiträge nicht mehr zu rekonstruieren war, musste ich einige Hundert Links (halb-)manuell korrigieren. Mühsam – aber eine wertvolle Lehre, dass man sich sorgfältig überlegen muss, wie man Permalinks setzt.
Fussnoten
1) =DATUM(TEIL(F2;1;2)+100;TEIL(F2;3;2); TEIL(F2;5;2))
, wobei F2 sich auf die Zelle bezieht, in der der Dateiname steht. ↩
2) Das ist die Formel:

C2 enthält die ursprüngliche Beschreibung und D2 den Dateinamen. ↩
Beitrag: Ich, nachdem ich dem Internet ein Schnippchen geschlagen habe (Becca Tapert, Unsplash-Lizenz).