- Vorverarbeitung gescannter Bilder oder Fotos
- Erkennung einer möglichst großen Textmenge in einem Dokumentbild
Implementierung des Szenarios
Die in diesem Thema bereitgestellten Codebeispiele sind Windows-spezifisch.
Schritt 1. ABBYY FineReader Engine laden
Schritt 1. ABBYY FineReader Engine laden
Um mit ABBYY FineReader Engine zu arbeiten, müssen Sie zunächst das Engine-Objekt erstellen. Das Engine-Objekt ist das übergeordnete Objekt in der Hierarchie der ABBYY FineReader Engine-Objekte und bietet verschiedene globale Einstellungen, einige Verarbeitungsmethoden sowie Methoden zum Erstellen weiterer Objekte.Um das Engine-Objekt zu erstellen, können Sie die Funktion InitializeEngine verwenden. Siehe auch andere Möglichkeiten zum Laden des Engine-Objekts (Win).
C#
C++ (COM)
Schritt 2. Laden der Einstellungen für das Szenario
Schritt 2. Laden der Einstellungen für das Szenario
Die am besten geeigneten Einstellungen für dieses Szenario können in ABBYY FineReader Engine mit der Methode LoadPredefinedProfile des Engine-Objekts ausgewählt werden. Diese Methode übernimmt den Profilnamen als Eingabeparameter. Weitere Informationen finden Sie unter Working with Profiles.ABBYY FineReader Engine unterstützt 2 Einstellungsvarianten für dieses Szenario:
Wenn Sie die Verarbeitungseinstellungen ändern möchten, verwenden Sie die entsprechenden Parameterobjekte. Weitere Informationen finden Sie weiter unten unter Zusätzliche Optimierung für bestimmte Aufgaben.
Profilname | Beschreibung |
|---|---|
TextExtraction_Accuracy | Die Einstellungen wurden auf Genauigkeit optimiert:
|
TextExtraction_Speed | Die Einstellungen wurden auf Verarbeitungsgeschwindigkeit optimiert:
|
C#
C++ (COM)
Schritt 3. Laden und Vorverarbeiten der Bilder
Schritt 3. Laden und Vorverarbeiten der Bilder
ABBYY FineReader Engine stellt das Objekt FRDocument bereit, mit dem mehrseitige Dokumente verarbeitet werden können.Um die Bilder eines einzelnen Dokuments zu laden und vorzuverarbeiten, sollten Sie das FRDocument-Objekt erstellen und Bilder hinzufügen. Dazu können Sie wie folgt vorgehen:
- Erstellen Sie das FRDocument-Objekt mit der Methode CreateFRDocumentFromImage des Engine-Objekts. Diese Methode erstellt das FRDocument-Objekt und lädt Bilder aus der angegebenen Datei.
- Erstellen Sie das FRDocument-Objekt mithilfe der Methode CreateFRDocument des Engine-Objekts und fügen Sie dann dem erstellten FRDocument-Objekt Bilder aus einer Datei hinzu (verwenden Sie dazu die Methoden AddImageFile, AddImageFileWithPassword oder AddImageFileWithPasswordCallback des FRDocument-Objekts).
C#
C++ (COM)
Schritt 4. Dokumenterkennung
Schritt 4. Dokumenterkennung
Um das Dokument zu erkennen, sollten Sie die Analyse- und Erkennungsmethoden des Objekts FRDocument verwenden. Dieses Objekt stellt eine ganze Reihe von Methoden für die Dokumentanalyse und -erkennung bereit. Die einfachste Methode, mit der sich Dokumentanalyse, Erkennung und Synthese in einem einzigen Aufruf ausführen lassen, ist die Methode Process. Sie nutzt außerdem die Funktionen zur parallelen Verarbeitung auf Multiprozessor- und Multicore-Systemen besonders effizient. Sie können jedoch auch die Vorverarbeitung, Analyse, Erkennung und Synthese nacheinander mit den Methoden Preprocess, Analyze, Recognize und Synthesize durchführen.
C#
C++ (COM)
Schritt 5. Suche nach wichtigen Informationen
Schritt 5. Suche nach wichtigen Informationen
Während der Analyse identifiziert ABBYY FineReader Engine Bildblöcke, die Text, Tabellen, Bilder usw. enthalten. Bei der Erkennung werden die Blöcke mit Textdaten mit dem erkannten Text gefüllt.In ABBYY FineReader Engine dient das Objekt Layout zum Speichern von Blöcken und erkanntem Text. Im Hauptszenario der Dokumentverarbeitung wird mit dem Layout innerhalb des Objekts FRDocument gearbeitet, das das verarbeitete Dokument repräsentiert. Um auf das Layout einer Dokumentseite zuzugreifen, verwenden Sie die Eigenschaft IFRPage::Layout.Um nach Schlüsselwörtern zu suchen, können Sie den erkannten Text über das Objekt Text anzeigen, auf das über die Eigenschaften von Text-, Tabellen- oder Barcode-Blöcken zugegriffen werden kann.Die wichtigen Daten, die Sie gefunden haben, können je nach Bedarf gespeichert oder verarbeitet werden. Weitere Informationen finden Sie unten unter Zusätzliche Optimierung für bestimmte Aufgaben.
(Optional) Schritt 6. Dokumentexport
(Optional) Schritt 6. Dokumentexport
Alternativ können Sie den extrahierten Text in einem leicht durchsuchbaren Format wie TXT oder in einem strukturierten Format wie JSON speichern, damit sich benötigte Informationen später einfach abrufen lassen.Verwenden Sie die Methode Export des Objekts FRDocument mit einer entsprechenden Konstante aus FileExportFormatEnum als einem der Parameter. Sie können die Standardparameter für den Export mithilfe des entsprechenden Exportobjekts ändern. Weitere Informationen finden Sie unten unter Zusätzliche Optimierung für bestimmte Aufgaben.Nachdem Sie Ihre Arbeit mit dem Objekt FRDocument abgeschlossen haben, geben Sie alle Ressourcen frei, die von diesem Objekt verwendet wurden. Verwenden Sie die Methode IFRDocument::Close.
C#
C++ (COM)
Schritt 7. ABBYY FineReader Engine entladen
Schritt 7. ABBYY FineReader Engine entladen
Nachdem Sie die Arbeit mit ABBYY FineReader Engine abgeschlossen haben, müssen Sie das Engine-Objekt entladen. Verwenden Sie dazu die exportierte Funktion DeinitializeEngine.
C#
C++ (COM)
Erforderliche Ressourcen
Zusätzliche Optimierung für bestimmte Aufgaben
-
Scannen - nur für Windows
- Scannen
Beschreibung des ABBYY FineReader Engine-Szenarios zum Scannen von Dokumenten.
- Scannen
-
Erkennung
- Optimierung von Parametern für Vorverarbeitung, Analyse, Erkennung und Synthese
Anpassung der Dokumentverarbeitung mithilfe von Objekten für Analyse-, Erkennungs- und Syntheseparameter.
- Optimierung von Parametern für Vorverarbeitung, Analyse, Erkennung und Synthese
-
Handschrift erkennen
Die TextExtraction_***-Profile unterstützen keine Erkennung von handschriftlichem oder handgedrucktem Text. Wenn Sie Handschrift erkennen müssen, setzen Sie die Eigenschaft DetectHandwritten des Objekts PageAnalysisParams auf TRUE. -
PageProcessingParams-Objekt
Dieses Objekt ermöglicht die Anpassung von Analyse- und Erkennungsparametern. Damit können Sie angeben, welche Bild- und Textmerkmale erkannt werden sollen (invertiertes Bild, Ausrichtung, Barcodes, Erkennungssprache, Fehlertoleranz bei der Erkennung). -
SynthesisParamsForPage-Objekt
Dieses Objekt enthält Parameter für die Wiederherstellung der Seitenformatierung während der Synthese. -
SynthesisParamsForDocument-Objekt
Dieses Objekt ermöglicht die Anpassung der Dokumentsynthese: die Wiederherstellung von Struktur und Formatierung. -
MultiProcessingParams-Objekt - nur für Linux und Windows
Die gleichzeitige Verarbeitung kann bei einer großen Anzahl von Bildern nützlich sein. In diesem Fall wird die Verarbeitungslast beim Öffnen und Vorverarbeiten von Bildern, bei der Layout-Analyse und bei der Erkennung auf die Prozessorkerne verteilt, wodurch sich die Verarbeitung beschleunigen lässt.
Die Lesemodi (gleichzeitig oder nacheinander) werden über die Eigenschaft MultiProcessingMode festgelegt. Die Eigenschaft RecognitionProcessesCount steuert die Anzahl der Prozesse, die gestartet werden können. -
Suche nach wichtigen Informationen
- Arbeiten mit Layout und Blöcken
Informationen zum Seitenlayout, zu Blocktypen und zur Arbeit damit. - Layout-Objekt
Die Parameter dieses Objekts bieten Zugriff auf das Seitenlayout und den erkannten Text nach der Dokumenterkennung. - Arbeiten mit Text
Arbeiten mit erkanntem Text, Absätzen, Wörtern und Zeichen.
- Arbeiten mit Layout und Blöcken
-
Erneutes Lesen eines Dokuments mit speziellen Parametern für einen bestimmten Datentyp
- Feldbasierte Erkennung
Beschreibung des Szenarios zur Erkennung kurzer Textsegmente.
- Feldbasierte Erkennung
-
Speichern von Daten
- Zum Speichern erkannter Daten können Sie die Methoden Export oder ExportPages des Objekts FRDocument verwenden, indem Sie die Konstante FileExportFormatEnum als einen der Parameter angeben.
- Dokumentarchivierung
Beschreibung des Szenarios zum Speichern einer elektronischen Kopie eines Dokuments.
