Schnelle Texterkennung

Neulich hatte ich ein akutes OCR-Bedürfnis. optical character recognition ist die Erkennung von Text in einem Pixelbild mit Buchstaben und die Umwandlung in eine textverarbeitbare Datei. Hätte es sich nur um ein paar Sätze gehandelt, dann hätte ich es mit der Erweiterung Project Naptha für Google Chrome probiert: Sie erkennt den Text direkt im Bild, sodass man ihn ohne weitere Umstände dort markieren und kopieren kann: Und es funktioniert recht gut, wenn der Hintergrund nicht allzu unruhig ist.

170721-abbyy-finereader-online.png
Unscheinbare Eingabemaske, perfektes Resultat.

Es handelte sich bei meinem Text aber um einen längeren Artikel in einem mehrspaltigen Layout, der obendrein in einem vergleichsweise niedrig aufgelösten Scan vorlag1. Mit so einer Vorlage kommen nur gute Texterkennungsprogramme zurecht – was nicht auf die Webdienste zutrifft, die man beim Googeln nach «OCR online» als erstes findet.

Irgendwo weiter hinten in der Trefferliste stösst man auf den Abbyy Fine Reader Online. Dort muss man ein Konto anlegen, was bei vielen anderen Diensten nicht notwendig ist. Aber weil Fine Reader von Abbyy einen sehr guten Ruf hat, wagte ich den Versuch. Und das Resultat: Absolut einwandfrei!

Der Webdienst verwandelt nicht nur den Text in Spalten korrekt in Fliesstext, er leistet sich auch kaum einen Fehler. Auch Namen im Text sind kein Problem. Den einzigen Fehler, den ich bei einer mittel-intensiven Prüfung gefunden habe, ist ein einfaches schliessendes Anführungszeichen, auf das ein normales schliessenden Anführungszeichen folgt. Die Software hat drei Apostrophe erkannt. Das ist ohne Zweifel eine lässliche Sünde.

Fazit: Unbedingt ein Lesezeichen wert. Als nicht bezahlender Nutzer erhält man 10 Page credits, darf also zehn Seiten kostenlos umwandeln. Ob diese Credits irgendwann wieder aufgefüllt werden, ist mir nicht ganz klar – aber wenn man bloss alle zehn Jubeljahre mal eine Seite konvertiert, wäre es auch kein Problem, wenn das nicht der Fall sein sollte.

Man kann natürlich auch Page Credits kaufen. Der billigste Preisplan sind 49 Euro für 2400 Scans während eines Jahres. Die teuerste Variante kostet 149 Euro für 12′000 Scans während eines Jahres. Diese Preispläne sind nun nicht für Gelegenheitsanwender ausgelegt und ich verstehe nicht, warum man nicht beispielsweise 40 Page credits für 1 Franken kaufen kann. Das wäre
keine Konkurrenz für die teureren Pakete und nicht interessant für die geschäftlichen Nutzer. Aber es wäre sinnvoll für sporadische OCRler, die keine Kaufsoftware und keine riesigen Kapazitäten benötigen.

Wenn man trotzdem lieber kauft, dann gibt es FineReader OCR Pro für den Mac für 120 Franken im Mac App Store. Für Windows zahlt man 199 Euro. Im mobilen Bereich gibt es kostenlos den Fine Scanner fürs iPhone und iPad und für Android. TextGrabber holt den Text aus Fotos raus. Diese App habe ich im Beitrag Fotografieren statt abtippen vorgestellt.

Footnotes

  1. Es handelt sich um einen Artikel aus einer alten Computerzeitschrift, den ich auch im Beitrag Corel? Die gibt es noch? thematisiert habe. ^top

Autor: Matthias

Diese Website gibt es seit 1999. Gebloggt wird hier seit 2007.

Kommentar verfassen