HTML, aber ohne Glump

Falls man Texte in HTML-Format von überflüssigen Formatierungen, und unbenötigten Span- und Div-Tags befreien muss, leistet wordtohtml.net hervorragende Dienste: Der Ballast wird entfernt, die nützlichen Tags bleiben bestehen.

Mach mal mein HTML sauber!¹

Ihr kennt das vielleicht: Ein Dokument muss ins Web. Wichtig ist, dass die Struktur des Dokuments erhalten bleibt, also vor allem die Titel der unterschiedlichen Hierarchiestufen. Und die Links – wenn das Dokument hinterlegte URLs enthält, dann sollen die erhalten bleiben.

Wenn das Dokument in Word vorliegt, kommt man vielleicht auf die Idee, es als HTML-Datei zu speichern. Resultat: Ein völlig unbrauchbarer Quatsch. Word schreibt verpackt den ganzen Formatierungsquatsch ins Dokument, als ob man den benötigen würde. Natürlich ist es so, dass man die Formatierungen nicht vom Dokument, sondern von der Stilvorlage des Website vorgegeben werden. Ich verstehe bis heute nicht, warum die Entwickler von Textverarbeitungsprogrammen das nicht kapieren. Obwohl ich ja schon diverse Artikel zum Thema geschrieben habe, etwa den hier: Wehret den Formatierungsäxten!. (Inzwischen behelfe ich mir da übrigens mit dem im Beitrag Mit diesem Trick hier spare ich tagtäglich Zeit beschriebenen Trick.)

Bei Copy-Paste kommt oft enorm viel Ballast mit

Manche Content-Management-Systeme verwenden einen Editor, der eine gewisse Intelligenz aufweist. Wenn man Text aus der Zwischenablage kopiert, dann wird der mit den hinterlegten Links übernommen. Doch wenn man in die Quellen schaut, sieht man unzählige Div- und Span-Tags, die man für eine einheitliche Formatierung von Hand rauspopeln müsste. Und das kann es nicht sein.

Ich behelfe mir in solchen Fällen mit wordtohtml.net. Links sieht man einen Editor, rechts den Code-Bereich. In den Editor kopiert man aus der Zwischenablage seinen Text, worauf rechts der HTML-Code erscheint. Und zwar, oh Wunder, sauber formatiert. Absätze mit der Formatvorlage Überschrift 1 werden zwischen h1 gesetzt. Überschrift 2 wird zu h2, und so weiter. Links bleiben erhalten, und zwar ohne Schnickschnack.

Links aus Word kopiert, rechts ohne Ballast formatiert.

Über den Bereich What would you like removed from your HTML? kann man diverse Dinge entfernen: Leere Tags, Links, Tabellen, Formulare, Kommentare, Code-Bestandteile, iFrames, Leerzeilen, Span-Tags oder sogar die p-Tags. Letzteres klingt nach einem Unsinn, ist aber sehr praktisch bei manchen Content-Management-Systemen. Auch das vom Newsnetz (das den schönen Namen Content Dictator trägt) nimmt HTML-Code entgegen, verwendet im Editor aber keine p-Tags. (Nach dem Ankreuzen einer Option muss man rechts auf Cleanup my HTML klicken.)

Und es gibt eine Suchen-Ersetzen-Funktion, die auch mit regulären Ausdrücken operiert.

Gratis, mit einer Pro-Variante

Fazit: ein nützlicher Webdienst für Nerds wie mich. Man kann sich darüber streiten, ob es heute noch notwendig ist, dass Umlaute als HTML-Entitäten ausgedrückt werden (also ä als ä, ö als ö, und so weiter. Im Unicode-Zeitalter könnte ich darauf verzichten. Aber es ist auch kein Beinbruch.

Der Dienst ist kostenlos, aber es gibt auch eine Pro-Variante. Die kostet ein US-Dollar im Monat und bringt zusätzliche Funktionen: Man kann seine Einstellungen speichern, Cleanup templates anlegen und Mehrfach-Suchen-Ersetzen verwenden. Ausserdem gibt es noch weitere Bereinigungsoptionen.

Nachtrag

Weitere Tipps und eine hervorragende Alternative zu wordtohtml.net finden sich im Beitrag Saubere Texte mit dem richtigen Format.

Fussnoten

1) Zur Vorbeugung eines Shitstorms: Ich bin natürlich nicht der Meinung, dass Putzen Frauenarbeit ist. Is’ ironisch gemeint, ne.

Kommentar verfassen