OCR

Was ist & was kann OCR?

OCR („optical character recognition“) ist eine Software zur Texterkennung. Man kann mithilfe einer OCR aus Papier-Textvorlagen, etwa von einem Skript, von dem keine Datei vorliegt, eine bearbeitbare Datei machen. Dazu wird das Skript hochauflösend eingescannt und anschließend mit der OCR-Software analysiert.
Heraus kommen editierbare Dateien wie z.B. aus dem Microsoft Office Bereich also bspw. eine WORD- oder eine EXCEL-Datei. Ebenso möglich ist die Bearbeitung einer Standard-PDF-Datei, die nach der OCR-Analyse eine PDF- Datei generiert, die Suchfunktionalität gestattet. Gängige OCR-Tools sind für das Erkennen von gedruckten Texten bzw. Zahlen optimiert, nicht für das Auslesen von Handschriften.

Voraussetzungen für eine gute OCR

Die Vorlagen sollten einen hohen s/w-Kontrast aufweisen und von der Schriftgröße mindestens 6-Punkt groß sein. In Verbindung mit einem hochauflösenden Qualitäts-Scan mit einer Auflösung von 300dpi oder mehr lassen sich gute, beinahe fehlerfreie Resultate erwarten. Sind die Zeichen bei der Vorlage zu klein oder unscharf, das Papier völlig vergilbt oder farbig oder wird mit zu geringer Auflösung eingescannt, stößt die OCR-Software an Ihre Grenzen: Ein „B“ kann zu einer „8“ werden, eine „1“ zu einem „I“. In diesem Fall muss der Text bzw. müssen die Zahlen geprüft und korrigiert werden.

Optimierung durch ICR

Eine Verbesserung der Ergebnisse einer OCR ist durch „intelligent character recognition“ (ICR) möglich, was am besten mit Kontextanalyse zu umschreiben ist. Ein Zeichen innerhalb eines Wortes, das eigentlich als „8“ erkannt wurde, wird dann automatisch zu einem „B“ abgeändert, weil es innerhalb eines Wortes steht und die Wahrscheinlichkeit deutlich höher ist, dass „B“ richtig ist und nicht „8“. Auch bei zweifelhaften Ergebnisse von Zeichen am Wortanfang wird die ICR automatisch korrigieren: „8erg“ wird dann zu „Berg“.

Die möglichen OCR Ausgabe-Dateien

Mit der klassischen OCR-Funktionalität werden Papier-Textvorlegen in Standard-Dateien wie WORD, EXCEL, PowerPoint, HTML oder auch in PDF umgewandelt. Man kann auch bereits vorliegende PDF-Dateien mit einer OCR bearbeiten, um eine PDF-Datei zu erhalten, die komfortabel durchsuchbar und bearbeitbar ist.