Optical Character Recognition (OCR)
- Optical Character Recognition (OCR)-Technologie — die Erkennung von Drucktext ist für 211 Sprachen verfügbar, darunter:
- Europäische Sprachen (lateinisches, kyrillisches, armenisches und griechisches Alphabet)
- Chinesisch (vereinfacht und traditionell), Japanisch und Koreanisch (CJK)
- Arabisch, Thai, Vietnamesisch, Hebräisch und Farsi
- Birmanisch — technische Vorschauversion
- FineReader XIX — ein Optical Character Recognition (OCR)-Modul, das speziell für die Digitalisierung und Archivierung alter Dokumente, Bücher und Zeitungen entwickelt wurde, die im 17. bis 20. Jahrhundert veröffentlicht wurden und von denen viele selten und einzigartig sind. Sie werden in den historischen Archiven von Bibliotheken und staatlichen Einrichtungen aufbewahrt und gehören zum nationalen Kulturerbe, das erhalten werden muss. FineReader XIX bietet die einzigartige Möglichkeit, Texte zu erkennen, die zwischen 1600 und 1937 in englischer, französischer, deutscher, italienischer und spanischer Sprache veröffentlicht wurden. Es unterstützt die Erkennung alter Schriften wie Fraktur, Schwabacher und der meisten gotischen Schriften.

- 56 Sprachen verfügen über Wörterbuch-/Morphologie-Unterstützung, die die Optical Character Recognition (OCR)-Genauigkeit erheblich verbessert.
- Die Funktion zur Erkennung mehrsprachiger Dokumente ermöglicht die Erkennung mehrerer Sprachen, z. B. Deutsch und Chinesisch oder Englisch, Russisch und Koreanisch im selben Dokument.
- Erkennung von Nadeldrucker-Dokumenten — ABBYY FineReader Engine erkennt gedruckte Texte aus Nadeldruckern vieler Arten. Es wurde mit mehreren tausend Beispielen trainiert, die mit unterschiedlichsten Druckern erzeugt wurden, darunter Nadel-, Typenrad-, Ketten- und Banddrucker, sowie in den Druckmodi Entwurf und Near Letter Quality (NLQ).
- Erkennung von Schreibmaschinendokumenten.
- Erkennung der Schriftarten Optical Character Recognition (OCR)-A, Optical Character Recognition (OCR)-B, MICR (E13B) und CMC7.
Intelligente Zeichenerkennung (ICR)
- ICR-Technologie — Erkennung handschriftlicher Druckschriftzeichen in mehr als 126 Sprachen.
- 39 Sprachen (mit lateinischem, griechischem und kyrillischem Alphabet) mit Morphologie- und Wörterbuchunterstützung.
- ICR für in arabischen Staaten verwendete indische Ziffern.
- 30 regionale Stile handschriftlicher Druckschrift, die in verschiedenen Ländern und Regionen der Welt verwendet werden (für unterstützte ICR-Sprachen).
- Erkennung handschriftlicher Druckschriftzeichen in Feldern und Rahmen — unterstrichene Felder, Kästchen, Kammfelder usw.
- Mehrsprachige ICR. Einer der Hauptvorteile der ABBYY ICR-Technologie ist, dass sie bei Ziffern und bei mit Buchstaben aus einer oder mehreren Sprachen kombinierten Ziffern nahezu dieselbe hohe Genauigkeit erreicht, selbst wenn die Felder sowohl Groß- als auch Kleinbuchstaben enthalten.
Optische Markierungserkennung (OMR)
- Häkchen in quadratischem Rahmen
- Häkchen auf leerem Hintergrund
- nicht standardisierte Häkchentypen (spezielle Häkchen müssen vor der Erkennung trainiert werden)
Optische Barcodeerkennung (OBR)
- 1D- und 2D-Barcodetypen. ABBYY OCR SDK unterstützt die Erkennung gängiger 1D- und 2D-Barcodetypen. Siehe die Liste der unterstützten Barcodetypen.
- Schnelle Barcode-Extraktion. Diese Funktion ermöglicht die automatische Erkennung und das Auslesen von Barcodes in beliebiger Ausrichtung in einem Dokument. Sie funktioniert sowohl für 1D- als auch für 2D-Barcodes
Erkennungsmodi
- Erkennungsmodus „Genau“
- Erkennungsmodus „Schnell“
- Erkennungsmodus „Normal“
Volltext- und Felderkennung
| Spezifikation | Volltexterkennung | Felderkennung |
|---|---|---|
| Wo verwendet | Dokumentkonvertierung, Bucharchivierung | Datenerfassung |
| --- | --- | --- |
| Dokumentanalyse | Allgemeine Dokumentanalyse, Dokumentanalyse für Rechnungen, Dokumentanalyse für die Volltextindizierung | Manuelle Blockspezifikation für die Felderkennung |
| Erkennung | OCR mit einer allgemeinen Genauigkeit von etwa 96–99 % | OCR-, ICR-, OMR- und Barcode-Erkennung mit vordefinierten Datentypen und Wertebereichen. Die Genauigkeit liegt bei etwa 100 % |
| Verifizierung | Für die Weiterverwendung von Inhalten empfohlen | In den meisten Fällen obligatorisch |
| Synthese | Für den Dokumentabruf verwendet | Nicht verwendet |
| Export der Erkennungsergebnisse | Dokumentdateien (RTF, DOCX, PDF usw.) | Export in XML-Datei oder Datenbank |
- Dokumentarchivierung
- Dokumentkonvertierung zur Weiterverwendung von Inhalten
- Textgrundextraktion zur Felderkennung und Dokumentklassifizierung
- Datenextraktion aus Feldern mit verschiedenen Rändern und Rahmen, einschließlich Kombinationsfeldern, unterstrichenen Feldern, Kästchen und sogar Feldern, in denen die Daten nicht innerhalb des Feldrands Platz finden
- Definition des Feldinhalts durch Festlegen von Alphabeten, Wörterbüchern, regulären Ausdrücken, Segmentierungstypen, Handschriftstilen (nur Windows) usw.
- Erkennung von Abständen innerhalb von Feldern, sodass Felder, in denen Leerzeichen zulässig sind, präzise erkannt werden. ABBYY FineReader Engine 12 ermöglicht außerdem die Verwendung von Wörterbüchern, die Wortkombinationen mit Leerzeichen enthalten
- Intelligente Verarbeitung von Blöcken mit sich überschneidenden Teilen und Linien; ermöglicht die Erkennung von Text (Wörtern und Symbolen), der sich vollständig innerhalb der Blockgrenzen befindet, und spart Zeit bei der Erkennung nicht relevanter Textblöcke
- Entfernen von Bildstörungen in Textblöcken mit der Möglichkeit, die Größe weißer oder schwarzer „Bildstörungen“ anzugeben
Benutzersprachen
- In handschriftlich ausgefüllten Dokumenten stammen die Werte in den Formularfeldern in der Regel aus einer bestimmten Menge, etwa Städtenamen, Ländern, Postleitzahlen, Produktcodes, Beträgen usw. Um die Qualität der ICR-Erkennung zu verbessern, können Sie Benutzersprachen verwenden, um die Informationen zu beschreiben, die in jedes Feld eingegeben werden können.
- Enthält ein Dokument „Strukturen“ wie Produktcodes, Telefonnummern, Passnummern usw., können Erkennungsfehler auftreten. Das liegt daran, dass das Programm solche Strukturen Buchstabe für Buchstabe liest. Um die Erkennung von Produktcodes und ähnlichen Daten zu verbessern, können Sie eine neue Erkennungssprache erstellen, die dem Programm hilft, bestimmte Datentypen korrekt zu lesen.
