Optical Character Recognition (OCR) und andere Erkennungstechnologien

Optical Character Recognition (OCR)

Optical Character Recognition (OCR)-Technologie — die Erkennung von Drucktext ist für 211 Sprachen verfügbar, darunter:
- Europäische Sprachen (lateinisches, kyrillisches, armenisches und griechisches Alphabet)
- Chinesisch (vereinfacht und traditionell), Japanisch und Koreanisch (CJK)
- Arabisch, Thai, Vietnamesisch, Hebräisch und Farsi
- Birmanisch — technische Vorschauversion
- FineReader XIX — ein Optical Character Recognition (OCR)-Modul, das speziell für die Digitalisierung und Archivierung alter Dokumente, Bücher und Zeitungen entwickelt wurde, die im 17. bis 20. Jahrhundert veröffentlicht wurden und von denen viele selten und einzigartig sind. Sie werden in den historischen Archiven von Bibliotheken und staatlichen Einrichtungen aufbewahrt und gehören zum nationalen Kulturerbe, das erhalten werden muss. FineReader XIX bietet die einzigartige Möglichkeit, Texte zu erkennen, die zwischen 1600 und 1937 in englischer, französischer, deutscher, italienischer und spanischer Sprache veröffentlicht wurden. Es unterstützt die Erkennung alter Schriften wie Fraktur, Schwabacher und der meisten gotischen Schriften.

56 Sprachen verfügen über Wörterbuch-/Morphologie-Unterstützung, die die Optical Character Recognition (OCR)-Genauigkeit erheblich verbessert.
Die Funktion zur Erkennung mehrsprachiger Dokumente ermöglicht die Erkennung mehrerer Sprachen, z. B. Deutsch und Chinesisch oder Englisch, Russisch und Koreanisch im selben Dokument.
Erkennung von Nadeldrucker-Dokumenten — ABBYY FineReader Engine erkennt gedruckte Texte aus Nadeldruckern vieler Arten. Es wurde mit mehreren tausend Beispielen trainiert, die mit unterschiedlichsten Druckern erzeugt wurden, darunter Nadel-, Typenrad-, Ketten- und Banddrucker, sowie in den Druckmodi Entwurf und Near Letter Quality (NLQ).
Erkennung von Schreibmaschinendokumenten.
Erkennung der Schriftarten Optical Character Recognition (OCR)-A, Optical Character Recognition (OCR)-B, MICR (E13B) und CMC7.

Siehe die vollständige Liste der unterstützten Sprachen und Texttypen.

Intelligente Zeichenerkennung (ICR)

ICR-Technologie — Erkennung handschriftlicher Druckschriftzeichen in mehr als 126 Sprachen.
39 Sprachen (mit lateinischem, griechischem und kyrillischem Alphabet) mit Morphologie- und Wörterbuchunterstützung.
ICR für in arabischen Staaten verwendete indische Ziffern.
30 regionale Stile handschriftlicher Druckschrift, die in verschiedenen Ländern und Regionen der Welt verwendet werden (für unterstützte ICR-Sprachen).
Erkennung handschriftlicher Druckschriftzeichen in Feldern und Rahmen — unterstrichene Felder, Kästchen, Kammfelder usw.
Mehrsprachige ICR. Einer der Hauptvorteile der ABBYY ICR-Technologie ist, dass sie bei Ziffern und bei mit Buchstaben aus einer oder mehreren Sprachen kombinierten Ziffern nahezu dieselbe hohe Genauigkeit erreicht, selbst wenn die Felder sowohl Groß- als auch Kleinbuchstaben enthalten.

Optische Markierungserkennung (OMR)

Die OMR-Technologie von ABBYY erkennt einfache Häkchen, gruppierte Häkchen, Musterhäkchen und handschriftlich korrigierte Häkchen in verschiedenen Varianten:

Häkchen in quadratischem Rahmen
Häkchen auf leerem Hintergrund
nicht standardisierte Häkchentypen (spezielle Häkchen müssen vor der Erkennung trainiert werden)

OMR erreicht eine Erkennungsgenauigkeit von 99,995 %

Optische Barcodeerkennung (OBR)

1D- und 2D-Barcodetypen. ABBYY OCR SDK unterstützt die Erkennung gängiger 1D- und 2D-Barcodetypen. Siehe die Liste der unterstützten Barcodetypen.
Schnelle Barcode-Extraktion. Diese Funktion ermöglicht die automatische Erkennung und das Auslesen von Barcodes in beliebiger Ausrichtung in einem Dokument. Sie funktioniert sowohl für 1D- als auch für 2D-Barcodes

Erkennungsmodi

Mit den vordefinierten Verarbeitungsmodi der Engine können Entwickler Verarbeitungsgeschwindigkeit und Genauigkeit schnell so konfigurieren und anpassen, dass sie ihren Anforderungen optimal entsprechen. Zusätzlich zum Standardverarbeitungsmodus können sowohl Optical Character Recognition (OCR) als auch ICR in den Erkennungsmodi „Normal“, „Schnell“ und „Genau“ ausgeführt werden:

Erkennungsmodus „Genau“ Dies ist der präziseste Modus, um die höchstmögliche Erkennungsqualität zu erzielen. Dieser Modus wird dringend empfohlen, wenn Sie erkannte Inhalte weiterverwenden möchten oder bei anderen Aufgaben, bei denen Genauigkeit von entscheidender Bedeutung ist.
Erkennungsmodus „Schnell“ Er ist für die Verarbeitung großer Dokumentmengen und für Fälle ausgelegt, in denen Geschwindigkeit oberste Priorität hat. Dieser Modus erhöht die Verarbeitungsgeschwindigkeit um 200–250 % und macht die Technologie ideal für den Einsatz in Content-Management- (CMS), Dokumentenmanagement- (DMS) und Archivierungssystemen.
Erkennungsmodus „Normal“ Er bietet mittlere Werte für Erkennungsgenauigkeit und Geschwindigkeit zwischen den Modi „Genau“ und „Schnell“. Im Allgemeinen bietet er eine höhere Geschwindigkeit bei nahezu derselben Genauigkeit wie der Modus „Genau“.

Volltext- und Felderkennung

Es gibt zwei Arten der Erkennung, die unterschieden werden können: Volltext- und Felderkennung. Der Hauptunterschied besteht darin, dass die Volltexterkennung in der Regel Optical Character Recognition (OCR) umfasst und für die Dokumentkonvertierung verwendet wird. Die Felderkennung umfasst OCR, ICR und andere Technologien, die in lokalen Bereichen zur Erkennung und Extraktion bestimmter Daten eingesetzt werden. Die folgende Tabelle zeigt die Spezifikationen dieser Erkennungsarten:

Spezifikation	Volltexterkennung	Felderkennung
Wo verwendet	Dokumentkonvertierung, Bucharchivierung	Datenerfassung
Dokumentanalyse	Allgemeine Dokumentanalyse, Dokumentanalyse für Rechnungen, Dokumentanalyse für die Volltextindizierung	Manuelle Blockspezifikation für die Felderkennung
Erkennung	OCR mit einer allgemeinen Genauigkeit von etwa 96–99 %	OCR-, ICR-, OMR- und Barcode-Erkennung mit vordefinierten Datentypen und Wertebereichen. Die Genauigkeit liegt bei etwa 100 %
Verifizierung	Für die Weiterverwendung von Inhalten empfohlen	In den meisten Fällen obligatorisch
Synthese	Für den Dokumentabruf verwendet	Nicht verwendet
Export der Erkennungsergebnisse	Dokumentdateien (RTF, DOCX, PDF usw.)	Export in XML-Datei oder Datenbank

Volltexterkennung Die Volltexterkennung ist ein grundlegender Erkennungstyp für verschiedene Aufgaben, wie zum Beispiel:

Dokumentarchivierung
Dokumentkonvertierung zur Weiterverwendung von Inhalten
Textgrundextraktion zur Felderkennung und Dokumentklassifizierung

All diese Aufgaben erfordern die Erkennung (OCR) des gesamten Textes in einem Dokument (auf einer Seite). Vor der Erkennung wird das Dokument in der Regel durch die Dokumentanalyse verarbeitet, um Seiten zu trennen und korrekt auszurichten sowie Textblöcke, Bilder und andere Objekte zu erkennen. Anschließend stellt die Dokumentsynthese die Struktur und das Layout des Dokuments wieder her (für die Weiterverwendung von Inhalten) oder ermittelt lediglich die korrekte Textreihenfolge für komplexe Dokumente mit mehreren Textspalten und Bildern (für Archivierungsszenarien). Der resultierende Text wird je nach Aufgabe als reiner Text oder als Dokument in einem unterstützten Format exportiert. Der Text kann zur Erhöhung seiner Genauigkeit manuell verifiziert werden, insbesondere für die spätere Weiterverwendung. Felderkennung ABBYY FineReader Engine 12 bietet umfassende Funktionen für die Felderkennung, um wichtige Geschäftsprozesse wie Formularverarbeitung, Schlüsselwortklassifizierung und Schlüsselwortindizierung zu unterstützen. Leistungsstarke Bildverarbeitungsfunktionen verbessern die Fähigkeit, kleine Zonenbereiche beliebiger Qualität intelligent zu erkennen, auch bei grafischen Besonderheiten, die die Erkennungsgenauigkeit beeinträchtigen können (z. B. unterstrichener Text, Bildstörung nach dem Scannen, Leerzeichen im Text usw.) Zu den wichtigsten Funktionen für die Felderkennung oder zonale Erkennung gehören mehrsprachige OCR und ICR, OMR, Barcode-Erkennung sowie eine Reihe spezifischer Funktionen, wie zum Beispiel:

Datenextraktion aus Feldern mit verschiedenen Rändern und Rahmen, einschließlich Kombinationsfeldern, unterstrichenen Feldern, Kästchen und sogar Feldern, in denen die Daten nicht innerhalb des Feldrands Platz finden
Definition des Feldinhalts durch Festlegen von Alphabeten, Wörterbüchern, regulären Ausdrücken, Segmentierungstypen, Handschriftstilen (nur Windows) usw.
Erkennung von Abständen innerhalb von Feldern, sodass Felder, in denen Leerzeichen zulässig sind, präzise erkannt werden. ABBYY FineReader Engine 12 ermöglicht außerdem die Verwendung von Wörterbüchern, die Wortkombinationen mit Leerzeichen enthalten
Intelligente Verarbeitung von Blöcken mit sich überschneidenden Teilen und Linien; ermöglicht die Erkennung von Text (Wörtern und Symbolen), der sich vollständig innerhalb der Blockgrenzen befindet, und spart Zeit bei der Erkennung nicht relevanter Textblöcke
Entfernen von Bildstörungen in Textblöcken mit der Möglichkeit, die Größe weißer oder schwarzer „Bildstörungen“ anzugeben

Die Felderkennung wird durch die speziellen Tools der Engine für Entwickler unterstützt, wie z. B. Voting API und „On-the-Fly“-Optimierung der Erkennung. Weitere Informationen finden Sie unter Erweiterte Entwicklungstools.

Benutzersprachen

ABBYY FineReader Engine bietet eine API zum Erstellen und Bearbeiten von Erkennungssprachen, zum Erstellen von Kopien vordefinierter Erkennungssprachen und zu deren Anpassung sowie zum Hinzufügen neuer Wörter zu Benutzersprachen. Enthält ein Dokument beispielsweise „Strukturen“ wie Produktcodes, Telefonnummern, Passnummern usw., können Erkennungsfehler auftreten. Das liegt daran, dass das Programm solche Strukturen Buchstabe für Buchstabe liest. Um die Erkennung von Produktcodes und ähnlichen Daten zu verbessern, können Sie eine neue Erkennungssprache erstellen, die dem Programm hilft, bestimmte Datentypen korrekt zu lesen. Nachfolgend finden Sie zwei Beispiele, die veranschaulichen, wie Benutzersprachen zur Verbesserung der Erkennungsqualität beitragen können:

In handschriftlich ausgefüllten Dokumenten stammen die Werte in den Formularfeldern in der Regel aus einer bestimmten Menge, etwa Städtenamen, Ländern, Postleitzahlen, Produktcodes, Beträgen usw. Um die Qualität der ICR-Erkennung zu verbessern, können Sie Benutzersprachen verwenden, um die Informationen zu beschreiben, die in jedes Feld eingegeben werden können.
Enthält ein Dokument „Strukturen“ wie Produktcodes, Telefonnummern, Passnummern usw., können Erkennungsfehler auftreten. Das liegt daran, dass das Programm solche Strukturen Buchstabe für Buchstabe liest. Um die Erkennung von Produktcodes und ähnlichen Daten zu verbessern, können Sie eine neue Erkennungssprache erstellen, die dem Programm hilft, bestimmte Datentypen korrekt zu lesen.

Training von Mustern

In den allermeisten Fällen kann ABBYY FineReader Engine Texte auch ohne vorheriges Training erfolgreich erkennen. In Fällen wie der Erkennung dekorativer oder konturierter Schriftarten oder bei der Massenerfassung von Dokumenten mit schlechter Druckqualität ist ein vorheriges Training von Mustern jedoch hilfreich. Mit dem Optical Character Recognition (OCR) SDK können Sie Benutzermuster direkt über die API erstellen und nutzen. Sie können Muster trainieren, indem Sie Bilder laden und die zugehörigen Zeichen zuordnen.

Siehe auch

Wichtige Funktionen Geführte Tour: Benutzermuster trainieren - nur für Windows Erweiterte Entwicklungstools