Dieses Szenario dient dazu, alle möglichen Daten aus einem Dokument zu extrahieren und strukturiert zu speichern.Das Ergebnis ist eine JSON-Datei, die die Struktur des Dokuments abbildet. Sie enthält alle Dokumentobjekte: gedruckten und handschriftlich erkannten Text, Tabellen, Barcodes, Häkchen und Bilder mit ihrer Position und ihren Attributen. Dieses Format eignet sich optimal für die Weiterverarbeitung, die Speicherung von Daten in einer Datenbank oder die Integration in eine andere Anwendung.In diesem Szenario durchläuft ein Dokument mehrere Verarbeitungsschritte:
Vorverarbeitung gescannter Bilder oder Fotos
Bilder, die Sie mit einem Scanner oder einer Digitalkamera erfassen, müssen vor der optischen Erkennung möglicherweise noch nachbearbeitet werden. So müssen beispielsweise verrauschte Bilder oder Bilder mit verzerrten Textzeilen korrigiert werden, damit die optische Erkennung erfolgreich durchgeführt werden kann.
Strukturierte Extraktion aller Daten aus dem Dokument
Bei der Layout-Analyse werden verschiedene Objekte im Bild erkannt und Blöcken des entsprechenden Typs zugeordnet. Die Blöcke werden mit den optimalen Einstellungen für ihren jeweiligen Typ erkannt. Im Zuge der Synthese wird die logische Struktur des Dokuments konsistent wiederhergestellt. Die Reihenfolge des Textes bleibt selbst bei komplexen Layouts so erhalten, dass sie dem menschlichen Leseverhalten entspricht. Dadurch wird sichergestellt, dass eine erneute Erkennung desselben Dokuments zur gleichen Textreihenfolge führt.
Export in ein strukturiertes Format
Das erkannte Dokument wird als JSON oder XML gespeichert.
Die in diesem Thema bereitgestellten Codebeispiele sind Windows-spezifisch.
Im Folgenden finden Sie eine ausführliche Beschreibung der empfohlenen Vorgehensweise für die Datenextraktion aus Dokumenten mit ABBYY FineReader Engine 12. Dabei werden Verarbeitungseinstellungen verwendet, die für diesen Zweck am besten geeignet sind.
Schritt 1. ABBYY FineReader Engine laden
Um mit ABBYY FineReader Engine zu arbeiten, müssen Sie zunächst das Engine-Objekt erstellen. Das Engine-Objekt ist das übergeordnete Objekt in der Hierarchie der ABBYY FineReader Engine-Objekte und bietet verschiedene globale Einstellungen, einige Verarbeitungsmethoden sowie Methoden zum Erstellen weiterer Objekte.Um das Engine-Objekt zu erstellen, können Sie die Funktion InitializeEngine verwenden. Siehe auch andere Möglichkeiten zum Laden des Engine-Objekts (Win).
// Initialisieren Sie diese Variablen mit dem Pfad zu FREngine.dll, Ihrer FineReader Engine Customer Project ID// sowie ggf. dem Pfad zum Online-Lizenz-Token und dem Online-Lizenz-Passwortwchar_t* FreDllPath;wchar_t* CustomerProjectId;wchar_t* LicensePath; // wenn Sie keine Online-Lizenz verwenden, weisen Sie diesen Variablen leere Strings zuwchar_t* LicensePassword;// HANDLE für FREngine.dllstatic HMODULE libraryHandle = 0;// Globales FineReader Engine-ObjektFREngine::IEnginePtr Engine;void LoadFREngine(){ if( Engine != 0 ) { // Bereits geladen return; } // Erster Schritt: FREngine.dll laden if( libraryHandle == 0 ) { libraryHandle = LoadLibraryEx( FreDllPath, 0, LOAD_WITH_ALTERED_SEARCH_PATH ); if( libraryHandle == 0 ) { throw L"Fehler beim Laden von ABBYY FineReader Engine"; } } // Zweiter Schritt: Engine-Objekt abrufen typedef HRESULT ( STDAPICALLTYPE* InitializeEngineFunc )( BSTR, BSTR, BSTR, BSTR, BSTR, VARIANT_BOOL, FREngine::IEngine** ); InitializeEngineFunc pInitializeEngine = ( InitializeEngineFunc )GetProcAddress( libraryHandle, "InitializeEngine" ); if( pInitializeEngine == 0 || pInitializeEngine( CustomerProjectId, LicensePath, LicensePassword, L"", L"", VARIANT_FALSE, &Engine ) != S_OK ) { UnloadFREngine(); throw L"Fehler beim Laden von ABBYY FineReader Engine"; }}
Schritt 2. Laden der Einstellungen für das Szenario
ABBYY FineReader Engine ermöglicht das Laden aller Verarbeitungseinstellungen, die für dieses Szenario am besten geeignet sind, mithilfe der Methode LoadPredefinedProfile des Objekts Engine. Diese Methode verwendet den Profilnamen als Eingabeparameter. Weitere Informationen finden Sie unter Arbeiten mit Profilen.Die Einstellungen für dieses Szenario sind im vordefinierten Profil DataExtraction verfügbar:
Layout-Analyse und Erkennung priorisieren Genauigkeit vor Geschwindigkeit.
Erkennt den gesamten Text in einem Bild, einschließlich handschriftlichem Text und kleiner Textbereiche von geringer Qualität.
Erkennt Tabellen, Häkchen und Barcodes.
Die logische Struktur eines Dokuments wird vollständig synthetisiert.
// Ein vordefiniertes Profil ladenEngine->LoadPredefinedProfile( L"DataExtraction" );
Wenn Sie die Verarbeitungseinstellungen ändern möchten, verwenden Sie die entsprechenden Parameterobjekte. Weitere Informationen finden Sie im Abschnitt Zusätzliche Optimierung weiter unten.
Schritt 3. Laden und Vorverarbeiten der Bilder
ABBYY FineReader Engine stellt das Objekt FRDocument bereit, mit dem mehrseitige Dokumente verarbeitet werden können. Mit diesem Objekt können Sie die logische Struktur des Dokuments beibehalten und dabei den ursprünglichen Text, Spalten, Schriftarten, Stile usw. erhalten.Um Bilder eines einzelnen Dokuments zu laden und vorzuverarbeiten, sollten Sie das Objekt FRDocument erstellen und ihm Bilder hinzufügen. Sie können dazu eine der folgenden Möglichkeiten verwenden:
Erstellen Sie das Objekt FRDocument mit der Methode CreateFRDocumentFromImage des Objekts Engine. Diese Methode erstellt das Objekt FRDocument und lädt Bilder aus der angegebenen Datei.
// Das FRDocument-Objekt aus einer Bilddatei erstellenFREngine::IFRDocumentPtr frDocument = Engine->CreateFRDocumentFromImage( L"C:\\MyImage.tif", 0 );
Schritt 4. Dokumenterkennung
Zum Erkennen eines Dokuments empfehlen wir, die Analyse- und Erkennungsmethoden des FRDocument-Objekts zu verwenden. Dieses Objekt bietet eine Vielzahl von Methoden für Dokumentanalyse, Erkennung und Synthese. Die komfortabelste Methode, die Dokumentanalyse, Erkennung und Synthese in einem einzigen Schritt ermöglicht, ist die Methode Process. Sie nutzt außerdem die Möglichkeiten zur parallelen Verarbeitung auf Multiprozessor- und Multicore-Systemen besonders effizient. Sie können die einzelnen Schritte Vorverarbeitung, Analyse, Erkennung und Synthese jedoch auch nacheinander mit den Methoden Preprocess, Analyze, Recognize und Synthesize ausführen.
// Das Dokument analysieren, erkennen und synthetisieren// Zusätzliche Parameter sind nicht erforderlich, da sie im Verarbeitungsprofil festgelegt sindfrDocument.Process( null );
// Das Dokument analysieren, erkennen und synthetisieren// Zusätzliche Parameter sind nicht erforderlich, da sie im Verarbeitungsprofil festgelegt sindfrDocument->Process( 0 );
Schritt 5. Dokumentexport
Zum Speichern eines erkannten Dokuments können Sie die Methode Export des Objekts FRDocument verwenden, indem Sie die Konstante FileExportFormatEnum als einen der Parameter angeben. Sie können die Standardparameter für den Export über das entsprechende Exportobjekt ändern. Weitere Informationen finden Sie weiter unten unter Zusätzliche Optimierung für bestimmte Aufgaben.Nachdem Sie die Arbeit mit dem FRDocument-Objekt abgeschlossen haben, geben Sie alle von diesem Objekt verwendeten Ressourcen frei. Verwenden Sie dazu die Methode IFRDocument::Close.
// Das erkannte Dokument in einem strukturierten Format speichernfrDocument.Export( "C:\\Data.json", FREngine.FileExportFormatEnum.FEF_JSON, null );// Das FRDocument-Objekt freigebenfrDocument.Close();
// Das erkannte Dokument in einem strukturierten Format speichernfrDocument->Export( L"C:\\Data.json", FREngine::FEF_JSON, 0 );// Das FRDocument-Objekt freigebenfrDocument->Close();
Schritt 6. ABBYY FineReader Engine entladen
Nachdem Sie die Arbeit mit ABBYY FineReader Engine abgeschlossen haben, müssen Sie das Engine-Objekt entladen. Verwenden Sie dazu die exportierte Funktion DeinitializeEngine.
Sie können die Datei FREngineDistribution.csv verwenden, um automatisch eine Liste der Dateien zu erstellen, die für den Betrieb Ihrer Anwendung erforderlich sind. Wählen Sie für dieses Szenario in Spalte 5 (RequiredByModule) die folgenden Werte aus:CoreCore.ResourcesOpeningOpening, ProcessingProcessingProcessing.OCRProcessing.OCR, Processing.ICRProcessing.OCR.NaturalLanguagesProcessing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguagesExportExport, ProcessingWenn Sie das Standardszenario ändern, passen Sie die erforderlichen Module entsprechend an. Sie müssen außerdem die Oberflächensprachen, Erkennungssprachen und alle zusätzlichen Funktionen angeben, die Ihre Anwendung verwendet (z. B. Opening.PDF, wenn Sie PDF-Dateien öffnen müssen, oder Processing.OCR.CJK, wenn Sie Texte in CJK-Sprachen erkennen müssen). Weitere Informationen finden Sie unter Working with the FREngineDistribution.csv File.
Nachfolgend finden Sie eine Übersicht über die Hilfethemen mit zusätzlichen Informationen zur Anpassung von Einstellungen in verschiedenen Phasen der Konvertierung von Dokumenten in ein bearbeitbares Format:
Scannen – nur unter Windows
Scannen Beschreibung des ABBYY FineReader Engine-Szenarios zum Scannen von Dokumenten.
PageProcessingParams-Objekt Dieses Objekt ermöglicht die Anpassung von Analyse- und Erkennungsparametern. Damit können Sie festlegen, welche Bild- und Texteigenschaften erkannt werden sollen (invertiertes Bild, Ausrichtung, Barcodes, Erkennungssprache, Fehlertoleranz bei der Erkennung).
SynthesisParamsForPage-Objekt Dieses Objekt enthält Parameter für die Wiederherstellung der Seitenformatierung während der Synthese.
SynthesisParamsForDocument-Objekt Dieses Objekt ermöglicht die Anpassung der Dokumentsynthese: die Wiederherstellung von Struktur und Formatierung.
MultiProcessingParams-Objekt - Implementiert für Linux und Windows Die gleichzeitige Verarbeitung kann bei der Verarbeitung einer großen Anzahl von Bildern nützlich sein. In diesem Fall wird die Verarbeitungslast beim Öffnen und Vorverarbeiten von Bildern, bei der Layout-Analyse, Erkennung und beim Export auf die Prozessorkerne verteilt, wodurch sich die Verarbeitung beschleunigen lässt. Die Verarbeitungsmodi (simultan oder nacheinander) werden über die Eigenschaft MultiProcessingMode festgelegt. Die Eigenschaft RecognitionProcessesCount steuert die Anzahl der Prozesse, die gestartet werden können.