Zum Hauptinhalt springen
Die grundlegenden Eigenschaften der Dokumentdefinition, wie Name, Sprache und Schreibstil, werden mithilfe des Document Definition Wizard konfiguriert. Andere Eigenschaften sind standardmäßig konfiguriert. Sie können die Eigenschaften einer Dokumentdefinition im Dialogfeld „Eigenschaften“ anzeigen und ändern, das geöffnet wird, wenn Sie im Fenster des Dokumentdefinition Editors den Menübefehl Document Definition → Eigenschaften der Dokumentdefinition… auswählen. Das Dialogfeld enthält die folgenden Tabs:
  • General
Auf diesem Tab können Sie die Dokumentdefinition umbenennen und ihre Beschreibung eingeben oder bearbeiten. Mit der Option Enabled wird die Dokumentdefinition in die Dokumentverarbeitung einbezogen oder davon ausgeschlossen.
  • Recognition
Das Programm verwendet für die Klassifizierung, das Matching eines FlexiLayout und das Hervorheben von Text auf Bildern eine schnelle Erkennung, die als Volltexterkennung bezeichnet wird. Auf diesem Tab legen Sie die Einstellungen für die Volltexterkennung fest. Beachten Sie, dass die Einstellungen für die Felderkennung in den Feldeigenschaften festgelegt werden.
  • Einstellungen aus Batch-Typ übernehmen**.** Wählen Sie diese Option aus, wenn Sie die Einstellungen für die Volltexterkennung synchronisieren möchten. Hinweis: Das Deaktivieren der Synchronisierung kann zu einem langsameren Matching der Dokumentdefinition führen.
  • Sprachen**.** Damit die Erkennung fehlerfrei ausgeführt werden kann, muss die richtige Sprache festgelegt werden. Diese Eigenschaft definiert sowohl die Sprache selbst als auch andere Einstellungen wie Datumsformat, Currency usw.
  • Wählen Sie einen Erkennungsmodus aus der Liste:
    • Schneller Modus. Farbige Bilder und Halbtonbilder werden vor der Erkennung binarisiert (d. h. in Schwarzweiß umgewandelt). Die schnelle Erkennung benötigt weniger Zeit und liefert in den meisten Fällen zufriedenstellende Ergebnisse.
    • Ausgeglichener Modus. Das Programm berücksichtigt zusätzlich die Bildfarben. Die Erkennung in diesem Modus ist langsamer, liefert jedoch eine bessere Qualität. Hinweis: Für die Algorithmen des Erkennungsmodus Balanced sind keine weiteren Änderungen geplant, da bereits die bestmöglichen Werte für Geschwindigkeit und Qualität erreicht wurden.
    • Der normale Modus ist die Standardeinstellung. Er wird auch empfohlen, wenn die Voraberkennung im Modus Fast / Balanced zu mehreren Fehlern führt.
    • Der genaue Modus ist für die Datenextraktion aus kaum lesbaren digitalen Bildern oder aus Dokumenten mit schlechter Qualität vorgesehen. Hinweis: Der genaue Modus benötigt am meisten Zeit und wird daher nur für problematische Bilder/Dokumente empfohlen.
  • Erweiterte Erkennungseinstellungen…
    • Sie können eine oder mehrere Optionen aus der Gruppe Correct page orientation, if page group for a page auswählen, um eine Seite um 180°, 90° im Uhrzeigersinn oder 90° gegen den Uhrzeigersinn zu drehen, wenn ihre Orientierung automatisch erkannt wird.
    • Geben Sie bei Bedarf im Abschnitt Text type an, wie ein Blankoformular gedruckt wird (Typographic, Matrix printer, Typewriter), und wählen Sie die Option Use pattern, um ein Musterbeispiel hinzuzufügen.
    • Barcodes**.** Parameter für die Barcode-Verarbeitung:
      • Barcode-Extraktion deaktivieren. Wählen Sie diese Option, wenn Barcodes auf Bildern nicht gefunden werden sollen. Dadurch wird die Dokumenterkennung erheblich beschleunigt.
      • 2D-Barcodes extrahieren: Data Matrix, Aztec, QR Code**.** Wählen Sie diese Option, wenn Ihre Bilder Barcodes der angegebenen Typen enthalten. Wenn die Option nicht ausgewählt ist, werden Data-Matrix-, Aztec- und QR-Code-Barcodes auf Bildern nicht gefunden.
  • Post-Barcodes extrahieren. Wählen Sie diese Option, wenn Ihre Bilder Post-Barcodes enthalten. Wenn diese Option nicht ausgewählt ist, werden Post-Barcodes auf Bildern nicht gefunden. Wichtig! Das Extrahieren von Barcodes verlangsamt die Erkennung.
  • CJK-Voraberkennung
    • Getrennter Furigana-Modus**.** Wählen Sie diese Option, um die Erkennung phonetischer Hinweise (Furigana) im Japanischen zu verbessern.
  • Erkennung benannter Entitäten: Benannte Entitäten extrahieren – Extraktion von Informationen mithilfe von NLP-Methoden. Hinweis: Erfordert ein NLP-Modul und einen bestimmten Lizenztyp.
  • Vertikale Textextraktion – Parameter für die vertikale Textextraktion:
    • Für alle Sprachen extrahieren – Erkennt vertikal ausgerichteten Text in einer beliebigen unterstützten Sprache.
    • Nicht extrahieren – Verhindert die Erkennung vertikal ausgerichteten Textes.
    • Für CJK-Sprachen extrahieren – Erkennt vertikalen Text in Chinesisch, Japanisch oder Koreanisch.
  • Klicken Sie auf die Schaltfläche Advanced…, um die Korrektur linearer und nichtlinearer Bildverzerrungen zu konfigurieren, die Richtung des automatischen Scannereinzugs anzugeben usw. Hinweis: Wählen Sie die Option Correct linear distortion, um Parameter für die Streckung/Komprimierung des Bildes in Höhe und Breite anzugeben. Bilder werden anhand vorhandener Anker (schwarzes Quadrat, Kreuz oder Ecke) sowie horizontaler und vertikaler Trennlinien skaliert.
  • Amount of Money – Eine Kombination aus einem numerischen Betrag und einem Currency-Code oder -Symbol. Um Erkennungsfehler bei visuell ähnlichen Zeichen wie 1, I und i oder s und $ zu vermeiden, wird ein regulärer Ausdruck verwendet, der Buchstaben nur in bestimmten Kombinationen zulässt, die Currency-Codes darstellen, und zwar entweder vor oder direkt nach dem numerischen Betrag. Die wichtigsten Currency-Codes sind unter Currencies aufgeführt.
Sie können die Liste der möglichen Currency-Codes und -Symbole bei Bedarf ändern. Wenn Sie beispielsweise wissen, welche Currency-Codes und -Symbole in Ihren Dokumenten vorkommen können, verbessert das Entfernen nicht benötigter Währungen aus der Liste die Erkennungsqualität. Sie können der Liste auch benutzerdefinierte Currency-Codes und -Symbole hinzufügen. Um die Liste zu ändern, klicken Sie rechts auf die Schaltfläche […]. Im Dialogfeld „Currency Symbols“ können Sie Currency-Codes oder -Symbole hinzufügen oder entfernen. Alternativ öffnen Sie das Dialogfeld „Feldeigenschaften“, klicken auf den Tab Data und nehmen die erforderlichen Änderungen vor. Weitere Informationen finden Sie unter Data types of the text entry field. Hinweis: Eine Dokumentdefinition kann nur eine Liste möglicher Currency-Codes und -Symbole haben. Diese Liste wird auf alle Felder vom Typ Amount of Money angewendet.
  • The Assembly
Dieser Tab dient zum Konfigurieren von Regeln für die Assemblierung mehrseitiger Dokumente. Im einfachsten Fall besteht die Dokumentdefinition aus einem einzelnen Abschnitt, der einmal vorkommt. Wenn eine Dokumentdefinition aus mehreren Abschnitten besteht, wird auf dieser Registerkarte eine Liste ihrer Namen angezeigt. Sie können die Anzahl der Vorkommen jedes Abschnitts angeben, indem Sie die Werte in den Spalten „Min number“ und „Max number“ ändern.
  • Use key fields equality assembling rule – aktivieren Sie diese Option, wenn Sie die Dokumentzusammenstellung anhand wichtiger Felder überprüfen möchten. Wählen Sie dann in der Spalte „Key Field“ für jeden Abschnitt ein wichtiges Feld aus. Wenn Sie Dokumente eingeben, werden nur Dokumente mit übereinstimmenden Werten der wichtigen Felder in jedem Abschnitt als korrekt zusammengestellt betrachtet. Stimmen die Werte nicht überein, wird eine Meldung über einen Zusammenstellungsfehler angezeigt.
  • Use standard assembly rules - aktivieren Sie diese Option, wenn Sie die Dokumentzusammenstellung anhand der folgenden Standardregeln überprüfen möchten:
    • Disable sections order check - aktivieren Sie diese Option, wenn Sie die Prüfung der Reihenfolge der Abschnitte im Dokument deaktivieren möchten (z. B. wenn die Reihenfolge der Abschnitte keinen Einfluss auf die Dokumentzusammenstellung hat). Das Programm prüft weiterhin, ob alle Abschnitte im Dokument vorhanden sind, ignoriert jedoch ihre Reihenfolge.
    • Enable annex pages - aktivieren Sie diese Option, wenn Sie Dokumente mit Anhängen verarbeiten möchten. Wenn die Verarbeitung von Dokumenten mit Anhängen aktiviert ist, können Sie außerdem die Option Detect annexes using preset document structure, without analyzing (fast) auswählen, um Anhänge anhand der vorhandenen Dokumentstruktur schneller zu erkennen.
Hinweis: Die Option Detect annexes using preset document structure, without analyzing (fast) ist nur für Dokumente wirksam, die während der Importphase durch Trennung erstellt wurden oder durch Anwenden eines speziellen Flags in der API. Solche Dokumente werden von der Zusammenstellung ausgeschlossen.
  • Use custom assembly rules - aktivieren Sie diese Option, wenn Sie die Dokumentzusammenstellung mithilfe eines Dokumentzusammenstellungsskripts überprüfen möchten. Ein benutzerdefiniertes Zusammenstellungsskript kann sowohl separat als auch zusammen mit den Standardregeln für die Zusammenstellung ausgeführt werden. Um das Skript zu bearbeiten, klicken Sie auf die Schaltfläche „Edit Assembly Script…“. Das Fenster „Skripteditor“ wird geöffnet.
Ausführliche Informationen finden Sie unter Erstellen von Dokumentdefinitionen für mehrseitige Dokumente, Zusammenstellen von Seiten zu Dokumenten und Erstellen von Dokumentdefinitionen für Dokumente mit Anhängen.
  • Die Regeln
Diese Registerkarte ist für Aktionen mit Regeln der Dokumentdefinition vorgesehen. Sie können Regeln löschen, bearbeiten oder neue Regeln erstellen. Ausführliche Informationen finden Sie unter Regelvalidierung.
  • Die Exportziele
Diese Registerkarte zeigt die aktuellen Exporteinstellungen der angegebenen Dokumentdefinition an. Um die Exporteinstellungen zu ändern, klicken Sie auf die Schaltfläche „Edit…“
  • Das Datenformular
Auf dieser Registerkarte können Sie Schriftschnitt und Schriftgröße für die Anzeige erkannter Daten ändern.
  • Die Gruppe Data Text Settings enthält Schriftarteinstellungen für die Anzeige erkannter Werte.
  • Die Gruppe Label Text Settings enthält Einstellungen für die Anzeige des erläuternden Textes (Feldnamen).
Ausführliche Informationen finden Sie unter Konfigurieren der Datendarstellung im Dokumentfenster.
  • Die Datensätze
Auf dieser Registerkarte können Sie benutzerdefinierte Datensätze erstellen und bearbeiten. Ausführliche Informationen finden Sie unter Verwenden von Lieferanten- und Geschäftsbereichsdatenbanken.
  • Die Ereignishandler
Auf dieser Registerkarte können Sie Ereignishandler für Dokumente des aktuellen Typs angeben. Ausführliche Informationen finden Sie unter Ereignishandler.
  • Die .NET References
Auf dieser Registerkarte können Sie Externe Assemblies hinzufügen, die in Skripten und globalen Modulen verwendet werden. Es können sowohl Standard-Assemblies als auch kompilierte Benutzer-Assemblies verwendet werden. Um eine Assembly hinzuzufügen, klicken Sie auf Add… Wählen Sie im daraufhin geöffneten Dialogfeld den Typ aus: Standard assembly name oder Attached file. Je nach ausgewähltem Typ geben Sie entweder den Standard-Assemblynamen ein oder wählen eine Assemblydatei aus. Ausführliche Informationen finden Sie unter Externe Assemblies.