HTML, aber ohne Glump

Mach mal mein HTML sauber!1

Ihr kennt das vielleicht: Ein Dokument muss ins Web. Wichtig ist, dass die Struktur des Dokuments erhalten bleibt, also vor allem die Titel der unterschiedlichen Hierarchiestufen. Und die Links – wenn das Dokument hinterlegte URLs enthält, dann sollen die erhalten bleiben.

Wenn das Dokument in Word vorliegt, kommt man vielleicht auf die Idee, es als HTML-Datei zu speichern. Resultat: Ein völlig unbrauchbarer Quatsch. Word schreibt verpackt den ganzen Formatierungsquatsch ins Dokument, als ob man den benötigen würde. Natürlich ist es so, dass man die Formatierungen nicht vom Dokument, sondern von der Stilvorlage des Website vorgegeben werden. Ich verstehe bis heute nicht, warum die Entwickler von Textverarbeitungsprogrammen das nicht kapieren. Obwohl ich ja schon diverse Artikel zum Thema geschrieben habe, etwa den hier: Wehret den Formatierungsäxten!. (Inzwischen behelfe ich mir da übrigens mit dem im Beitrag Mit diesem Trick hier spare ich tagtäglich Zeit beschriebenen Trick.)

Manche Content-Management-Systeme verwenden einen Editor, der eine gewisse Intelligenz aufweist. Wenn man Text aus der Zwischenablage kopiert, dann wird der mit den hinterlegten Links übernommen. Doch wenn man in die Quellen schaut, sieht man unzählige Div- und Span-Tags, die man für eine einheitliche Formatierung von Hand rauspopeln müsste. Und das kann es nicht sein.

Ich behelfe mir in solchen Fällen mit wordtohtml.net. Links sieht man einen Editor, rechts den Code-Bereich. In den Editor kopiert man aus der Zwischenablage seinen Text, worauf rechts der HTML-Code erscheint. Und zwar, oh Wunder, sauber formatiert. Absätze mit der Formatvorlage Überschrift 1 werden zwischen h1 gesetzt. Überschrift 2 wird zu h2, und so weiter. Links bleiben erhalten, und zwar ohne Schnickschnack.

161214-wordtohtml.png
Links aus Word kopiert, rechts ohne Ballast formatiert.

Über den Bereich What would you like removed from your HTML? kann man diverse Dinge entfernen: Leere Tags, Links, Tabellen, Formulare, Kommentare, Code-Bestandteile, iFrames, Leerzeilen, Span-Tags oder sogar die p-Tags. Letzteres klingt nach einem Unsinn, ist aber sehr praktisch bei manchen Content-Management-Systemen. Auch das vom Newsnetz (das den schönen Namen Content Dictator trägt) nimmt HTML-Code entgegen, verwendet im Editor aber keine p-Tags. (Nach dem Ankreuzen einer Option muss man rechts auf Cleanup my HTML klicken.)

Und es gibt eine Suchen-Ersetzen-Funktion, die auch mit regulären Ausdrücken operiert.

Fazit: Ein nützlicher Webdienst für Nerds wie mich. Man kann sich darüber streiten, ob es heute noch notwendig ist, dass Umlaute als HTML-Entitäten ausgedrückt werden (also ä als ä, ö als ö, und so weiter. Im Unicode-Zeitalter könnte ich darauf verzichten. Aber es ist auch kein Beinbruch.

Der Dienst ist kostenlos, aber es gibt auch eine Pro-Variante. Die kostet 1 US-Dollar im Monat und bringt zusätzliche Funktionen: Man kann seine Einstellungen speichern, Cleanup templates anlegen und Mehrfach-Suchen-Ersetzen verwenden. Ausserdem gibt es noch weitere Bereinigungsoptionen.

Footnotes

  1. Zur Vorbeugung eines Shitstorms: Ich bin natürlich nicht der Meinung, dass Putzen Frauenarbeit ist. Is’ ironisch gemeint, ne. ^top

Autor: Matthias

Diese Website gibt es seit 1999. Gebloggt wird hier seit 2007.

Kommentar verfassen