Zum Hauptinhalt springen
ABBYY FineReader Engine unterstützt zahlreiche Parameter, mit denen Sie die Engine fein abstimmen können. In den meisten Fällen müssen Sie jedoch nicht alle Werte selbst festlegen: Die Eigenschaften neuer Objekte werden bei ihrer Erstellung auf sinnvolle Standardwerte gesetzt, und für die wichtigsten Einsatzszenarien stellen wir gut getestete vordefinierte Profile bereit. Wenn Ihr Szenario spezifischer ist und Sie die optimalen Einstellungen für die bestmögliche Verarbeitungsgeschwindigkeit und -qualität ermittelt haben, erstellen Sie ein eigenes Profil. Alle Parameter für Bildvorverarbeitung, Analyse, Erkennung, Synthese und Export lassen sich über ein Profil ändern. Wenn Ihre Anwendung Erkennungsergebnisse beispielsweise im TXT-Format exportiert (reiner Text ohne Formatierung), sind viele layoutbezogene Eigenschaften irrelevant und können deaktiviert werden. Nach dem Laden eines Profils mithilfe der Methoden LoadPredefinedProfile/LoadProfile des Objekts Engine werden die Eigenschaften neu erstellter Objekte auf die im Profil festgelegten Standardwerte gesetzt.

Vordefinierte Profile

ABBYY FineReader Engine bietet eine Reihe vordefinierter Profile für die wichtigsten Anwendungsszenarien. Die meisten Profile sind in zwei Varianten verfügbar: optimiert für die bestmögliche Qualität des resultierenden Dokuments oder für die höchste Verarbeitungsgeschwindigkeit. Die vollständige Spezifikation aller vordefinierten Profile finden Sie unter Spezifikation der vordefinierten Profile.

Geeignet zumExtrahieren von Datenaus einem Dokument und zur Darstellung in einem strukturierten Format. Alle Objekte – einschließlich Tabellen, Bilder, Häkchen und Handschriften – werden zusammen mit ihrer Position und ihren Attributen gespeichert. Dieses Profil eignet sich am besten für die Weiterverarbeitung der extrahierten Daten oder die Integration in andere Anwendungen.

Geeignet zumKonvertieren von Dokumentenin ein bearbeitbares Format (z. B. RTF, DOCX). Die Einstellungen wurden auf Genauigkeit optimiert:

  • Beste Qualität. Ermöglicht die Erkennung von Schriftstilen und die vollständige Synthese der logischen Struktur eines Dokuments.

Geeignet zumKonvertieren von Dokumentenin ein bearbeitbares Format (z. B. RTF, DOCX). Die Einstellungen wurden auf Verarbeitungsgeschwindigkeit optimiert:

  • Beste Qualität. Ermöglicht die Erkennung von Schriftstilen und die vollständige Synthese der logischen Struktur eines Dokuments.
  • Die Bildausrichtung wird nicht korrigiert.
  • Die Dokumentenanalyse wird beschleunigt.

Geeignet zum Erstellen eineselektronischen Archivs(Konvertierung in PDF, PDF/A, PDF und PDF/A mit MRC). Die Einstellungen wurden auf Genauigkeit optimiert:

  • Ermöglicht die Erkennung von möglichst viel Text in einem Bild, einschließlich eingebetteten Texts.
  • Die vollständige Synthese der logischen Struktur eines Dokuments wird nicht durchgeführt.
Dieses Profil ist nicht für die Konvertierung eines Dokuments in RTF, DOCX oder ein reines Text-PDF vorgesehen. Verwenden Sie für solche Zwecke die Dokumentkonvertierungsprofile.

Geeignet zum Erstellen eineselektronischen Archivs(Konvertierung in PDF, PDF/A, PDF und PDF/A mit MRC). Die Einstellungen wurden auf Verarbeitungsgeschwindigkeit optimiert:

  • Ermöglicht die Erkennung von möglichst viel Text in einem Bild, einschließlich eingebetteten Texts.
  • Die Schieflagekorrektur wird nicht durchgeführt.
  • Die vollständige Synthese der logischen Struktur eines Dokuments wird nicht durchgeführt.
  • Dokumentenanalyse und -erkennung werden beschleunigt.
Dieses Profil ist nicht für die Konvertierung eines Dokuments in RTF, DOCX oder ein reines Text-PDF vorgesehen. Verwenden Sie für solche Zwecke die Dokumentkonvertierungsprofile.

Geeignet zumExtrahieren von Textaus einem Dokument. Die Einstellungen wurden auf Genauigkeit optimiert:

  • Ermöglicht die Erkennung des gesamten Textes in einem Bild, einschließlich kleiner Textbereiche mit geringer Qualität (Bilder und Tabellen werden nicht erkannt).
  • Die vollständige Synthese der logischen Struktur eines Dokuments wird nicht durchgeführt.

Der Text wird in derselben Reihenfolge extrahiert, in der ein Mensch ihn lesen würde. Dies gewährleistet die Datenkonsistenz beim Einsatz für Training und Verarbeitung mit Natural Language Processing (NLP)-Engines.

Dieses Profil ist nicht für die Konvertierung eines Dokuments in RTF, DOCX oder ein reines Text-PDF vorgesehen. Verwenden Sie für solche Zwecke die Dokumentkonvertierungsprofile.

Geeignet zumExtrahieren von Textaus einem Dokument. Die Einstellungen wurden auf Verarbeitungsgeschwindigkeit optimiert:

  • Ermöglicht die Erkennung des gesamten Textes in einem Bild, einschließlich kleiner Textbereiche mit geringer Qualität (Bilder und Tabellen werden nicht erkannt).
  • Die vollständige Synthese der logischen Struktur eines Dokuments wird nicht durchgeführt.
  • Dokumentenanalyse und -erkennung werden beschleunigt.

Der Text wird in derselben Reihenfolge extrahiert, in der ein Mensch ihn lesen würde. Dies gewährleistet die Datenkonsistenz beim Einsatz für Training und Verarbeitung mit Natural Language Processing (NLP)-Engines.

Das Profil ist nicht für die Konvertierung eines Dokuments in RTF, DOCX oder ein Nur-Text-PDF vorgesehen. Verwenden Sie für solche Zwecke die Profile zur Dokumentkonvertierung.

Geeignet fürdie Erkennung kurzer Textfragmente. Derzeit verwendet dieses Profil die Standardeinstellungen.

Geeignet fürdie Barcode-Extraktion. Es werden nur Barcodes extrahiert (Texte, Bilder oder Tabellen werden nicht erkannt). Die Einstellungen sind auf Genauigkeit optimiert.

Aus Kompatibilitätsgründen können Sie auch unter dem Namen BarcodeRecognition auf dieses Profil zugreifen.

Dieses Profil erfordert das in der Lizenz verfügbare ModulBarcode Autolocation.

Geeignet fürdie Barcode-Extraktion. Es werden nur Barcodes extrahiert (Texte, Bilder oder Tabellen werden nicht erkannt). Die Einstellungen sind auf Verarbeitungsgeschwindigkeit optimiert.

Dieses Profil erfordert das in der Lizenz verfügbare ModulBarcode Autolocation.

Geeignet zum Erstellen hoch komprimierter PDF-Dateien, die vollständige Dokumente als Bilder enthalten. Dabei werden die folgenden Einstellungen verwendet:

  • Dokumenterkennung und Synthese der logischen Struktur eines Dokuments werden nicht durchgeführt.
  • Eine Korrektur der Schieflage wird nicht durchgeführt.
  • Der PDF-Export ist auf die minimale Größe der resultierenden Datei optimiert.
  • Das gesamte Dokument wird als Bild gespeichert (PEM_ImageOnlyModus).

Geeignet fürdie Erkennung von Visitenkarten. Dabei werden die folgenden Einstellungen verwendet:

  • Es werden nur Visitenkarten erkannt.
  • Ermöglicht die Erkennung des gesamten Textes in einem Bild, einschließlich kleiner Textbereiche mit geringer Qualität (Bilder und Tabellen werden nicht erkannt).
  • Eine Auflösungskorrektur wird durchgeführt.
  • Eine vollständige Synthese der logischen Struktur eines Dokuments wird nicht durchgeführt.

Geeignet fürdie Extraktion von Daten aus einer maschinenlesbaren Zone(MRZ). Dabei werden die folgenden Einstellungen verwendet:

  • Ermöglicht die Erkennung und Extraktion des gesamten Textes in einem Bild (Bilder, Vektorgrafiken und Tabellen werden nicht erkannt).
  • Auflösungs- und Geometriekorrekturen werden automatisch durchgeführt.

Geeignet für die Erkennung technischer Zeichnungen. Dabei werden die große Größe und Komplexität technischer Diagramme sowie die Möglichkeit unterschiedlicher Textausrichtungen innerhalb des Bildes berücksichtigt. Das Profil ist für die Konvertierung solcher Bilder in ein durchsuchbares PDF vorgesehen. Dabei werden die folgenden Einstellungen verwendet:

  • Ermöglicht die Erkennung des gesamten Textes in einem Bild, einschließlich vertikal ausgerichteter Textblöcke.
  • Eine vollständige Synthese der logischen Struktur eines Dokuments wird nicht durchgeführt.
Das Profil ist nicht für die Konvertierung eines Dokuments in RTF, DOCX oder ein Nur-Text-PDF vorgesehen. Verwenden Sie für solche Zwecke die Profile zur Dokumentkonvertierung.

Setzt alle Verarbeitungsparameter auf die Standardwerte.

Die mit diesen Profilen bereitgestellten Einstellungen können mit der Methode LoadPredefinedProfile des Engine-Objekts geladen werden. Nachdem das Profil geladen wurde, erhalten neu erstellte Objekte die im Profil angegebenen neuen Standardwerte.
  • FRE-Benutzer unter Linux finden die vordefinierten Profildateien im Distributionspaket im Ordner Bin Libraries.
  • FRE-Benutzer unter macOS finden die vordefinierten Profildateien im Distributionspaket im Ordner /PredefinedProfiles.
  • Um mithilfe der Datei FREngineDistribution.csv zu ermitteln, welche Ressourcendateien für die Funktionsfähigkeit Ihrer Anwendung erforderlich sind, lesen Sie die Seite zu dem von Ihnen gewählten Szenario.

Benutzerprofile

Sie können auch ein benutzerdefiniertes Benutzerprofil erstellen. Die Syntax einer Profildatei ähnelt der von *.ini-Dateien. Kommentare können hinzugefügt werden, indem eine Zeile mit einem Semikolon beginnt. Die Abschnitte enthalten die Namen der Objekte in eckigen Klammern, und die Schlüssel enthalten die Eigenschaften mit ihren neuen Werten. Der spezielle Abschnitt namens UserData kann beliebige benutzerdefinierte Schlüssel enthalten. Eigenschaften verschiedener Typen können in den folgenden Formaten angegeben werden:
  • Boolesche Eigenschaftswerte werden als Zeichenfolgen dargestellt: true oder false.
  • Eigenschaftswerte von Aufzählungstypen werden durch Konstantennamen dargestellt.
  • String-Eigenschaftswerte werden ohne Anführungszeichen geschrieben.
Zum Beispiel:
[PrepareImageMode]
RasterizeFreeText = false
[PDFExportParams]
TextExportMode = PEM_ImageOnText
; dies ist ein Kommentar
[RecognizerParams]
TextLanguage = English,Russian
[TextExportParams]
TabSeparator = \t
Mit der Methode LoadProfile des Engine-Objekts können Sie eine Benutzerprofildatei laden. Nachdem das Benutzerprofil geladen wurde, sind die Eigenschaften neu erstellter Objekte auf die im Profil angegebenen Werte gesetzt. Das Laden von Parametern aus einem Profil ist vergleichbar mit dem Festlegen der entsprechenden Eigenschaften im Programmcode, vereinfacht jedoch die Anwendungslogik. Wenn Sie LoadProfile mit einem leeren string als Eingabe aufrufen, werden die standardmäßigen Vorgabewerte verwendet. Die Korrektheit der neuen Werte der Eigenschaften und ihre Übereinstimmung mit der Lizenz werden beim Erstellen des entsprechenden Objekts geprüft. Mit einer Profildatei können alle Eigenschaften der folgenden Objekte erneut festgelegt werden: 1 Beachten Sie, dass die Eigenschaft UserPatternsFile des RecognizerParams-Objekts nur den vollständigen Pfad zur Musterdatei akzeptiert, wobei der jeweilige Schrägstrich als Trennzeichen verwendet wird. Der Pfadwert sollte nicht in Anführungszeichen stehen. Unter Windows zum Beispiel:
[RecognizerParams]
UserPatternsFile = C:\folder\file.ptn
Unter Linux: /home/user/Documents/Patterns/ und unter macOS: /Users/user/Documents/
2 Um die Eigenschaften der Objekte PictureExportParams oder PaperSizeParams festzulegen, geben Sie die Parameter direkt im Abschnitt des Exportparameterobjekts an (nicht im Abschnitt PictureExportParams oder PaperSizeParams). So können Sie für verschiedene Exportformate unterschiedliche Einstellungen verwenden. Um beispielsweise das Graustufenbildformat für RTF-Dateien anzugeben:
[RTFExportParams]
GrayPictureFormats = GPF_Png
3 Um die Eigenschaften des Objekts DocumentContentInfoWritingParams festzulegen, geben Sie die Parameter direkt im Abschnitt des übergeordneten Objekts an. Für das PDF-Format ist dies das Objekt PDFExportFeatures; für andere Formate ist es das entsprechende Objekt für die Exportparameter. So können Sie für verschiedene Exportformate unterschiedliche Einstellungen für die Inhaltsinformationen festlegen. Wenn Sie beispielsweise den Dokumentautor nicht in die ausgegebenen PDF-Dateien schreiben möchten, fügen Sie die folgenden Zeilen in das Profil ein:
[PDFExportFeatures]
WriteAuthor = false
4 Um die Eigenschaften des PageMargins-Objekts festzulegen, geben Sie die Parameter direkt im Abschnitt des übergeordneten Objekts an. Beachten Sie, dass die auf TRUE gesetzte Eigenschaft UseCustomPageMargins vor den Werten für die Seitenränder angegeben werden muss:
[RTFExportParams]
UseCustomPageMargins = true
PageMargins.Left = 5000
PageMargins.Right = 5000
PageMargins.Top = 5000
PageMargins.Bottom = 5000

Gleichzeitige Verwendung von vordefinierten Profilen und Benutzerprofilen

Ein vordefiniertes Profil und ein Benutzerprofil können gleichzeitig geladen werden. Ein Benutzerprofil hat Vorrang vor einem vordefinierten Profil. Das heißt: Wenn im Benutzerprofil derselbe Parameter festgelegt ist wie im vordefinierten Profil, wird der Wert aus dem Benutzerprofil verwendet. Wenn Sie ein weiteres vordefiniertes Profil laden, ersetzt dieses neue Profil das zuvor geladene vordefinierte Profil. Ebenso ersetzt ein neues Benutzerprofil das zuvor geladene Benutzerprofil. Beachten Sie, dass beim Laden eines Profils die aktuelle Erkennungssitzung zurückgesetzt wird (entspricht dem Aufruf der Methode IEngine::CleanRecognizerSession).

Siehe auch

Anpassen von Parametern der Vorverarbeitung, Analyse, Erkennung und Synthese Anpassen von Exportparametern