Die Dokumentverarbeitung in ABBYY FineReader Engine umfasst mehrere Schritte: Seitenvorverarbeitung, Analyse, Erkennung, Seitensynthese, Dokumentsynthese und Export. In diesem Abschnitt geht es um die Seitenvorverarbeitung, Analyse, Erkennung sowie die Seiten- und Dokumentsynthese. Ausführliche Informationen zu den Exportparametern finden Sie unter Exportparameter anpassen. Betrachten wir die Verarbeitungsstufen der Reihe nach:Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
- Seitenvorverarbeitung
In dieser Phase verbessert FineReader Engine automatisch die Bildqualität und korrigiert Mängel, die die Optical Character Recognition (OCR) beeinträchtigen können: Seitenausrichtung, invertierte Bilder und geometrische Verzerrungen. - Layoutanalyse
Während der Analyse erkennt FineReader Engine Bereiche mit unterschiedlichen Datentypen. Diese Bereiche werden als „Blöcke“ bezeichnet. - Erkennung
Die innerhalb der Blöcke liegenden Bildbereiche werden abhängig vom Blocktyp erkannt. - Seitensynthese
Text- und Hintergrundfarben, Hyperlinks und andere Formatierungen werden erkannt. - Dokumentsynthese
Abschließend werden die Schriftstile und die logische Struktur des Dokuments rekonstruiert: FineReader Engine erkennt Überschriften im erkannten Dokument, stellt das Inhaltsverzeichnis wieder her, erkennt Beschriftungen von Bildern und Tabellen sowie weitere Elemente der Dokumentstruktur.
Seitenverarbeitung
- PagePreprocessingParams
- ColorObjectsProhibitingParams
- PageAnalysisParams
- ObjectsExtractionParams
- RecognizerParams
- SynthesisParamsForPage
Dokumentverarbeitung
- Wenn Sie erkannten Text in das TXT-Format exportieren möchten. Beim Export in dieses Format werden keine Syntheseinformationen verwendet.
- Wenn Sie ein Dokument in das Format PDF ImageOnly exportieren möchten. Der erkannte Text und die Layoutinformationen werden in diesem Modus nicht verwendet.
Methoden, die das Wort „Process“ im Namen enthalten (zum Beispiel
IFRDocument::Process), umfassen auch die Phase der Dokumentensynthese. Die Verarbeitungsmethoden des Objekts FRPage umfassen sie nicht. Daher müssen Sie nach ihrer Verwendung und vor dem Export explizit eine Methode aufrufen, die die Dokumentensynthese ausführt.DetectFontFormattingAtPageLevel des Objekts SynthesisParamsForPage auf TRUE setzen, können Sie anschließend die Erkennung von Schriftparametern und der Dokumentstruktur während der Dokumentensynthese deaktivieren (DetectFontFormatting und DetectDocumentStructure des Objekts SynthesisParamsForDocument). Allerdings kann sich die Qualität dadurch verschlechtern.
Jedes Mal, wenn der Text oder das Layout des Dokuments geändert wird (z. B. wenn ein Block entfernt oder hinzugefügt oder Text bearbeitet wird), empfehlen wir, die Dokumentensynthese erneut aufzurufen. Beachten Sie, dass die Methode SynthesizePages des FRDocument es Ihnen ermöglicht, die Sammlung der geänderten Seiten des Dokuments anzugeben, sodass nur die erforderlichen Daten neu berechnet werden.
Optimierung der Dokumentverarbeitung
- Erstellen Sie mithilfe der Methode CreateDocumentProcessingParams des Objekts Engine ein Objekt vom Typ DocumentProcessingParams.
- Konfigurieren Sie die erforderlichen Eigenschaften des Unterobjekts PageProcessingParams. Sie müssen nicht alle Eigenschaften sämtlicher Unterobjekte konfigurieren, da sie bei der Erstellung mit sinnvollen Standardwerten initialisiert werden. Sie müssen nur die Eigenschaften anpassen, deren Werte von den Standardwerten abweichen sollen.
-
Konfigurieren Sie bei Bedarf die erforderlichen Eigenschaften des Unterobjekts SynthesisParamsForDocument. Sie müssen nicht alle Eigenschaften aller Objekte und Unterobjekte konfigurieren, da sie bei der Erstellung mit sinnvollen Standardwerten initialisiert werden. Sie müssen nur die Eigenschaften anpassen, deren Werte von den Standardwerten abweichen sollen. Stellen Sie sicher, dass der Wert der Eigenschaft PerformSynthesis des Objekts DocumentProcessingParams
trueist. - Sie können das Objekt DocumentProcessingParams oder eine Gruppe seiner Unterobjekte an eine der Verarbeitungsmethoden der Objekte FRDocument, FRPage und Engine übergeben.
C#-Code
C#-Code
- Linux: CustomLanguage
- Windows: CustomLanguage, VisualComponents; sowie die Demo-Tools MultiProcessingRecognition, PDFExportProfiles
