- Vorverarbeitung gescannter Dateien oder Bilder
- Erkennung mit vollständiger Wiederherstellung der Dokumentstruktur und Formatierung
- Vergleich von Dokumenten oder Seiten
- Export in ein externes Format
Implementierung des Szenarios
Die in diesem Thema bereitgestellten Codebeispiele sind Windows-spezifisch.
Schritt 1. Laden von ABBYY FineReader Engine
Schritt 1. Laden von ABBYY FineReader Engine
Um mit ABBYY FineReader Engine zu arbeiten, müssen Sie das Objekt Engine erstellen. Das Engine-Objekt ist das oberste Objekt in der Hierarchie der ABBYY FineReader Engine-Objekte und stellt verschiedene globale Einstellungen, einige Verarbeitungsmethoden sowie Methoden zum Erstellen anderer Objekte bereit.Zum Erstellen des Engine-Objekts können Sie die Funktion InitializeEngine verwenden. Siehe auch weitere Möglichkeiten zum Laden des Engine-Objekts (Win).
C#
Schritt 2. Laden und Vorverarbeiten von Dateien und Bildern
Schritt 2. Laden und Vorverarbeiten von Dateien und Bildern
ABBYY FineReader Engine stellt das FRDocument-Objekt bereit, mit dem mehrseitige Dokumente verarbeitet werden können. Mit diesem Objekt können Sie die logische Struktur des Dokuments beibehalten und den ursprünglichen Text sowie Spalten, Schriftarten, Stile usw. erhalten. Verwenden Sie das FRPage-Objekt, wenn Sie Seiten miteinander vergleichen möchten.Um Bilder eines einzelnen Dokuments zu laden und vorzuverarbeiten, sollten Sie das FRDocument-Objekt erstellen und ihm Bilder hinzufügen. Dazu haben Sie folgende Möglichkeiten:
- Erstellen Sie das FRDocument-Objekt mit der CreateFRDocumentFromImage-Methode des Engine-Objekts. Diese Methode erstellt das FRDocument-Objekt und lädt Bilder aus der angegebenen Datei.
- Erstellen Sie das FRDocument-Objekt mithilfe der CreateFRDocument-Methode des Engine-Objekts und fügen Sie dann dem erstellten FRDocument-Objekt Bilder aus einer Datei hinzu (verwenden Sie dazu die AddImageFile-, AddImageFileWithPassword- oder AddImageFileWithPasswordCallback-Methode des FRDocument-Objekts).
C#
Schritt 3. Dokumenterkennung
Schritt 3. Dokumenterkennung
Um ein Dokument zu erkennen, empfehlen wir die Analyse- und Erkennungsmethoden des FRDocument-Objekts. Dieses Objekt bietet eine ganze Reihe von Methoden für Dokumentanalyse, Erkennung und Synthese. Die komfortabelste Methode, die Dokumentanalyse, Erkennung und Synthese in einem Schritt bereitstellt, ist die Process-Methode. Außerdem nutzt sie die Möglichkeiten zur gleichzeitigen Verarbeitung auf Multiprozessor- und Multicore-Systemen besonders effizient. Sie können die aufeinanderfolgenden Schritte Vorverarbeitung, Analyse, Erkennung und Synthese jedoch auch mit den Methoden Preprocess, Analyze, Recognize und Synthesize ausführen.
Sie können die Erkennungsparameter für Ihre Dokumente festlegen, indem Sie ein geeignetes vordefiniertes Profil laden (weitere Informationen finden Sie unter Arbeiten mit Profilen).
Sie können die Erkennungsparameter für Ihre Dokumente festlegen, indem Sie ein geeignetes vordefiniertes Profil laden (weitere Informationen finden Sie unter Arbeiten mit Profilen).
C#
Schritt 4. Vergleichen von Dokumenten oder Seiten
Schritt 4. Vergleichen von Dokumenten oder Seiten
So vergleichen Sie Dokumente oder Seiten mit ihren Kopien:
- Stellen Sie sicher, dass Ihre ABBYY FineReader Engine-Lizenz das Modul Compare Documents unterstützt.
- Erstellen Sie mithilfe der Methode CreateComparator des Engine-Objekts ein Objekt vom Typ Comparator.
- [optional] Verwenden Sie das Objekt ComparisonParams, um die Eigenschaften auf die gewünschten Werte festzulegen.
- Rufen Sie die Methode CompareDocuments des Objekts Comparator auf, um das Originaldokument mit der Kopie zu vergleichen. Sie erhalten ein Objekt vom Typ ComparisonResult, das Informationen zu den erkannten Änderungen enthält.
C#
Schritt 5. Arbeiten mit den erkannten Änderungen
Schritt 5. Arbeiten mit den erkannten Änderungen
Das Objekt ComparisonResult enthält die vollständige Liste der Unterschiede und stellt Methoden bereit, mit denen Sie die Unterschiede für einzelne Seiten abrufen können. Sie können mit den Methoden GetChangesForReferencePage und GetChangesForUserPage auf die Änderungen im Originaldokument und in seiner Kopie zugreifen. Verwenden Sie das Objekt ChangeLocation, um Informationen über die Position der Änderung abzurufen, und die Eigenschaft RegionForPage, um die Region der Änderung auf der angegebenen Seite zu erhalten.
C#
Schritt 6. Exportieren des Vergleichsergebnisses
Schritt 6. Exportieren des Vergleichsergebnisses
Um das Vergleichsergebnis zu exportieren, rufen Sie die Methode Export des Objekts ComparisonResult auf und übergeben den Pfad zur Datei als Eingabeparameter. Die Daten können als XML-Datei oder als DOCX-Datei mit nachverfolgten Änderungen gespeichert werden.C#
Schritt 7. ABBYY FineReader Engine entladen
Schritt 7. ABBYY FineReader Engine entladen
Nachdem Sie die Arbeit mit ABBYY FineReader Engine abgeschlossen haben, müssen Sie das Engine-Objekt entladen. Verwenden Sie dazu die exportierte Funktion DeinitializeEngine.
C#
Erforderliche Ressourcen
Zusätzliche Optimierung für bestimmte Aufgaben
- Scannen – nur unter Windows
- Scannen
Beschreibung des ABBYY FineReader Engine-Szenarios zum Scannen von Dokumenten.
- Scannen
- Erkennung
- Anpassen von Parametern für Vorverarbeitung, Analyse, Erkennung und Synthese
Anpassung der Dokumentverarbeitung mithilfe von Parameterobjekten für Analyse, Erkennung und Synthese. - PageProcessingParams-Objekt
Dieses Objekt ermöglicht die Anpassung von Analyse- und Erkennungsparametern. Mit diesem Objekt können Sie angeben, welche Bild- und Texteigenschaften erkannt werden sollen (invertiertes Bild, Ausrichtung, Barcodes, Erkennungssprache, zulässige Fehlermarge bei der Erkennung). - SynthesisParamsForPage-Objekt
Dieses Objekt enthält Parameter, die für die Wiederherstellung der Seitenformatierung während der Synthese verantwortlich sind. - SynthesisParamsForDocument-Objekt
Dieses Objekt ermöglicht die Anpassung der Dokumentsynthese: die Wiederherstellung der Struktur und Formatierung des Dokuments. - MultiProcessingParams-Objekt - Für Linux und Windows implementiert
Die gleichzeitige Verarbeitung kann beim Verarbeiten einer großen Anzahl von Bildern nützlich sein. In diesem Fall wird die Verarbeitungslast beim Öffnen und Vorverarbeiten von Bildern, bei der Layout-Analyse, bei der Erkennung und beim Export auf die Prozessorkerne verteilt, wodurch die Verarbeitung beschleunigt werden kann.
Die Verarbeitungsmodi (gleichzeitig oder nacheinander) werden mit der Eigenschaft MultiProcessingMode festgelegt. Die Eigenschaft RecognitionProcessesCount steuert die Anzahl der Prozesse, die gestartet werden können.
- Anpassen von Parametern für Vorverarbeitung, Analyse, Erkennung und Synthese
