Saubere Texte mit dem richtigen Format

Fünf Tipps, wie man seine Dokumente sauber formatiert und syntaktisch auf Vordermann bringt: Für alle, für die Word nicht der Weisheit letzter Schluss ist.

Seinerzeit habe ich wordtohtml.net vorgestellt: Das ist ein Webdienst, bei dem man formatierten Text, zum Beispiel aus Word, einkopiert. Er wird daraufhin in HTML umgewandelt. Und man hat die Möglichkeit, allen Ballast zu entfernen. Es ist nämlich wirklich verblüffend, wie viele Formattags an einem einzigen Absatz kleben. Dabei müsste das Konzept sein, Inhalt und Form möglichst weitgehend zu trennen. Aber das haben die bei Microsoft offensichtlich nicht verstanden.

Darum eben Word to HTML: Dort gibt es eine Bereinigungsfunktion, die alles Überflüssige entfernt und nur die grundlegenden Dinge belässt: Titel, Formatierungen wie fett und kursiv, Aufzählungen und solche Tags dieser Kategorie. Das ganze Div– und Span-Gerümpel, Style– und Class-Parameter dürfen auch gerne über die Klinge springen.

Das ist sehr praktisch. Nur bietet der Dienst auch die grundlegende Bereinigung inzwischen nicht mehr gratis an. Man müsste 5 US-Dollar pro Monat abdrücken, was mir deutlich zu teuer ist. Dafür könnte ich schliesslich fast schon Ulysses abonnieren.

Ich habe mich daher nach einer Alternative umgesehen.

HTML von Ballast befreien

Dabei bin ich auf html-cleaner.com gestossen. Es funktioniert genau gleich: Man kopiert seinen Text in ein Editorfeld und sieht daneben die HTML-Quelle. Darunter findet man die Cleaning Options: Man kann Tag-Attribute, Inline-Stile, Classes und IDs entfernen oder sämtliche Tags spurlos beseitigen lassen. Es gibt auch eine Option, um leere Tags, Span-Tags, Bilder, Links, Tabellen und Kommentare zu entfernen und Spezialzeichen zu encodieren.

Immer sauber bleiben – auch beim HTML.

Ein Test mit einer Worddatei funktioniert einwandfrei: HTML Cleaner erzeugt absolut sauberen Code, den man ohne weiteres in sein CMS übernehmen könnte.

Der Dienst ist kostenlos, aber es gibt eine Pro-Mitgliedschaft. Mit der tobt man sich dann unter htmlg.com aus.

Bei dem Dienst gibt es für 69 US-Dollar pro Jahr oder einmalig 159 Dollar für immer eine wirklich ausgeklügelte Umgebung, um Tags zu bereinigen, zu ersetzen oder zu filtern. Diese Möglichkeiten sprengen meine Bedürfnisse. Aber für Leute, die höhere Ansprüche haben als ich, ist das eine vielversprechende Sache. Man kann übrigens nicht nur HTML, sondern auch CSS-Stildateien und JavaScript-Quellcode aufräumen.

Einige weitere Websites für die Code-Transformation

Und wo wir schon dabei sind, noch ein paar willkürlich zusammengehamsterte Webdienste, die am Rand etwas mit diesem Thema hier zu tun haben:

puppypaste.com: Hier fügt man seinen formatierten Text, zum Beispiel aus Word ein und erhält wahlweise Markdown-Code, HTML, Textile oder Jira zurück. Eine komfortable Alternative zu Paste to Markdown (hier kurz erwähnt).

upmath.me: Ein Online-Editor, mit dem man Markdown-Dokumente verfasst, diese aber auch mit Formeln in Latex-Syntax eingibt. Nicht dass ich dieses Bedürfnis hätte. Aber ich komme auch selten in die Verlegenheit, wissenschaftliche Papers verfassen zu müssen.

Formatautomaten

Pandoc: Eine Umwandlungsplattform für diverse Syntax-Systeme. Ich habe sie im Beitrag Texte mit Format seinerzeit kurz erwähnt, bin damit aber selbst nicht so richtig warm geworden. Neulich bin ich jedoch über den Beitrag Formatautomat von «c’t» gestolpert. Der macht den Einstieg deutlich einfacher.

overleaf.com: Falls man nun doch einmal auf die Idee kommen sollte, sich mit Latex herumschlagen zu wollen, dann kann man das in diesem Online-Editor tun. Er ist kollaborativ, hat einen Änderungsverlauf und zeigt eine Vorschau an. Für die private Nutzung ist der Dienst kostenlos, im  professionellen Einsatz kostet er 15 Franken bzw. 30 Franken pro Monat.

Beitragsbild: Eine Lesebrille mit Fensterglas? (Pixabay, Pexels-Lizenz)

Kommentar verfassen