Wenn Word einen Linseneintopf anrichtet

Dokumente in Papierform zu archivieren, braucht Hardware (in Form von Bundesordnern und einem Locher), Platz und ein irgendwie geartetes Ablagesystem. Mit anderen Worten: Das ist ein gestriges Konzept. Heute legt man seine Dokumente in digitaler Form ab. Was bedeutet, dass man Dokumente, die man in Papierform erhält, digitalisieren muss.

150409-office-lens-01.jpg
Fotografieren… und dabei die Kamera möglichst ruhig halten! (Links)
… und das Dokument dann in ein passendes Format überführen. (Rechts)

Ich habe zum Zweck der Umwandlung von Gedruckten in Dateien die beiden Apps Scanner Pro und DocScanner im Einsatz und hier im Blog vorgestellt (Papierdigitalisierung einfach gemacht, Für James Bond und das digitale Büro).

Dieser Tage wurde die Office Lens-App von Microsoft (für iPhone und für Android als Preview) durch die Newssites und Blogs geschleift. Die App ist laut Microsofts Office-Blog a OneNote scanner for your pocket, was ihr aber nicht so richtig gerecht wird: Sie wandelt Papierenes nicht nur für OneNote um, sondern auch für Word und Powerpoint, und auch ein Export als PDF ist möglich.

Die Vorgehensweise ist einfach und erfolgt analog zu den anderen Apps aus diesem Genre: Man fotografiert sein Dokument. Die Software versucht, schräge Aufnahmen zu entzerren und die Belichtung möglichst neutral zu korrigieren. Trotzdem ist das Resultat natürlich je besser, desto gerader man das Smartphone über das (möglichst flach daliegende) Dokument hält. Und genügend Licht schadet auch nicht. Für meinen Test habe ich allerdings extra schluderig gearbeitet – denn ich wollte sehen, was Office Lens unter schwierigen Bedingungen leistet.

Nachdem das Foto mit einer der drei Einstellungen Foto, Whiteboard oder Dokument erstellt wurde, kann man es für die erwähnten Dateitypen umwandeln, bei OneDrive hochladen oder in der Fotorolle speichern. Die Umwandlung erfolgt über Microsofts Server. Man braucht entsprechend nicht nur ein Microsoft-Konto, sondern muss sein Foto erst hochladen, um dann das fertige Dokument wieder herunterzuladen. Das ist im Büro mit WLAN kein Problem. Bei der Arbeit im Feld kann es sich als Hindernis entpuppen – sei es, weil die Netzabdeckung schlecht ist, sei es, weil man seine wertvollen Daten nicht für die Hin-und-Zurück-Übertragung potenziell grosser Dateien nutzen will.

150409-office-lens-02.jpg
Das Resultat in Word ist nur eine grobe Annäherung. Lustiges Detail am Rand: Der OCR-Vorgang hat sogar den Text im Typografie-Screenshot rechts unten erkannt. (Links)
Die PDF-Datei ist ein Faksimile mit hinterlegtem (durchsuch- und kopierbarem) Text.

Das umgewandelte Dokument wurde mit OCR-Erkennung behandelt. Es wird im PDF-Format als Faksimile aufbereitet, bei den Office-Dokumenten nachgebaut. Dass man davon keine Wunder erwarten darf, sollte einen nicht überraschen. Die Texterkennung erfolgt kaum je fehlerfrei, und die Rekonstruktion des ursprünglichen Dokuments mit seinen Layout- und Formateigenschaften ist nur eine Annäherung. Das liegt im Fall der Beispielseite aus dem Publisher (hier als PDF zu finden) daran, dass die App die Originalschriften nicht zur Verfügung hat und das Layout in InDesign erstellt wurde. Word oder Powerpoint sind weniger auf präzise Gestaltung ausgelegt und können daher gar nicht mit der ursprünglichen Genauigkeit arbeiten. Abgesehen fehlt der Software die Intelligenz eines menschlichen Layouters, sodass die Nachbildung nur oberflächlich erfolgt. Die innere Struktur mit Textfluss und Rahmenverknüpfungen, die bei der abgebildeten Magazinseite recht komplex sind, gehen dabei weitgehend verloren. Im Fall der Publisher-Testseite ist die linke Spalte noch ganz in Ordnung. Bei den drei Spalten rechts mit dem eingerückten Textblock kommt der Textfluss komplett durcheinander.

Trotzdem: Je nach Situation ist eine (mehr oder minder genaue) Annäherung besser als gar nichts – und bei einem einfachen Dokument wie einem Brief darf man auch deutlich bessere Resultate erwarten als bei meinem zugegeben sehr schwierigen Testszenario. An der PDF-Umsetzung mit dem hinterlegten Text, der durchsucht und kopiert werden kann, ist nicht viel auszusetzen – die OCR-Fehler sind in dem Fall auch der sehr kleinen und feinen Schrift in der Testseite aus dem Publisher geschuldet.

Fazit: Office Lens ist eine nützliche App, die in vielen Fällen brauchbare Resultate liefert. Wer Adobe Acrobat (d.h. die Vollversion des Adobe Reader) zur Verfügung hat, kann die OCR-Texterkennung mit diesem Programm durchführen und wird mutmasslich noch etwas bessere Resultate erzielen. Für die Acrobat-losen Anwender ist Office Lens eine hervorragende (Gratis-)Lösung, um archivierbare PDF-Dateien zu erstellen, die sich per Volltextsuche erschliessen lassen. Einzige Bedingung: Es muss akzeptabel sein, dass die Texterkennung online stattfindet. Für sensible Daten ist die Erkennung via Acrobat – ohne Cloud – trotz allem vorzuziehen.

Autor: Matthias

Diese Website gibt es seit 1999. Gebloggt wird hier seit 2007.

Kommentar verfassen