Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Ein Textfeld extrahiert einen String-Wert aus einem Dokument — zum Beispiel einen Namen, eine Adresse, eine ID oder sonstigen Text. Der Datentyp des Feldes (Text, Date, Number oder Money) bestimmt, wie Vantage den Wert erkennt und validiert.

Ein Textfeld hinzufügen

Sie können ein Textfeld auf zwei Arten hinzufügen.

Markieren Sie eine Region auf dem Dokumentbild

Klicken Sie auf einen Wert (beim Darüberfahren grün hervorgehoben) oder ziehen Sie eine rechteckige Region darum. Anschließend erscheint das neue Feld im Datenformular.

Fügen Sie ein leeres Feld hinzu und markieren Sie anschließend die Region

Klicken Sie in der Symbolleiste auf Feld hinzufügen und ziehen Sie dann ein Rechteck um den Wert im Bild. Die Daten in dieser Region werden als Feldwert übernommen.
Um ein Feld umzubenennen, doppelklicken Sie im Datenformular auf den Namen oder klicken Sie in den Feldeigenschaften darauf. Mit einem Dreifachklick wählen Sie den gesamten Namen aus. Um die Feldeigenschaften zu öffnen, klicken Sie auf Feldoptionen.

Mehrere Regionen zu einem Feld hinzufügen

Einige Werte erstrecken sich über mehrere Zeilen oder Seiten. Daher kann ein einzelnes Feld mehrere Regionen erfordern. So fügen Sie mehrere Regionen zu einem neuen Feld hinzu:
1

Das Feld hinzufügen

Verwenden Sie eine der beiden oben beschriebenen Methoden.
2

Zusätzliche Regionen auswählen

Halten Sie Shift gedrückt und klicken Sie auf zusätzliche Regionen oder ziehen Sie sie für dasselbe Feld auf.
Um Regionen zu einem vorhandenen Feld hinzuzufügen, wählen Sie das Feld im Datenformular aus und klicken Sie dann auf seine Position im Bild oder ziehen Sie darüber. Wenn sich der Wert über mehrere Wörter erstreckt, wählen Sie sie alle als eine einzige Region aus. Regionen können sich über mehrere Seiten erstrecken oder innerhalb einer anderen Region liegen. Eine verschachtelte Region wird in einer dunkleren Farbe hervorgehoben; wenn sie fokussiert ist, wird sie gelb hervorgehoben.

Allgemeine Eigenschaften

PropertyDescription
FeldnameEindeutig innerhalb des Skills. Darf folgende Zeichen nicht enthalten: . , / : * ? " < > |. Maximale Länge: 90 Zeichen.
DatentypDie Art der Daten, die das Feld enthält. Beeinflusst die Erkennungsgenauigkeit. Optionen finden Sie unter Datentypen.
Mehrere Elemente zulassenGibt an, ob sich das Feld wiederholt (zum Beispiel mehrere Kindernamen oder Kontonummern).
PflichtfeldWenn diese Option aktiviert ist und das Feld nach der Extraktion leer ist, wird das Dokument mit einem Fehler zur Manuellen Überprüfung weitergeleitet.
SchlüsselfeldKennzeichnet den Wert als durchsuchbar — zum Suchen von Dokumenten.
DimensionsfeldStellt den Wert in Skill Monitor als Berichtsdimension bereit. Hinweis: Der Wert wird in der Reporting-Datenbank auf 100 Zeichen gekürzt (bleibt im Dokument jedoch unverändert).

Datentypen

DatentypBeschreibung
TextKann lateinische und kyrillische Buchstaben, Ziffern, Logogramme und Sonderzeichen enthalten.
DateDatum und Uhrzeit in beliebigem Format. Akzeptierte Trennzeichen: Punkt (.), Leerzeichen, Bindestrich (-), Backslash (\) und Schrägstrich (/).
NumberKann Ziffern, Dezimaltrennzeichen und das Prozentzeichen (%) enthalten. Akzeptierte Dezimaltrennzeichen: Punkt (.), Komma (,), Bindestrich (-), Gleichheitszeichen (=), Leerzeichen. Akzeptierte Tausendertrennzeichen: Punkt (.), Komma (,), einfaches Anführungszeichen ('), Leerzeichen.
MoneyEnthält sowohl einen Zahlenwert als auch ein Währungssymbol. Das Währungssymbol kann entweder vor oder nach dem Betrag stehen.
Der Kleinbuchstabe „l“ (L), der Großbuchstabe „I“ (i) und die Ziffer „1“ können identisch aussehen. In Number- oder Money-Feldern wird ein mehrdeutiges Zeichen als „1“ erkannt, da Buchstaben nicht zulässig sind.

Darstellungseinstellungen

Diese Eigenschaften beschreiben das Erscheinungsbild der im Feld erwarteten Zeichen.
  • Textart — Gibt an, ob das Feld nur gedruckte Zeichen, nur handschriftliche Zeichen oder beides enthält. Wenn Sie das Feld durch Aufziehen eines Rechtecks hinzufügen, ermittelt Vantage diesen Wert anhand der gefundenen Zeichen. Wenn Sie das Feld mit Add Field hinzufügen, ist der Standardwert Printed. Siehe unterstützte Sprachen für die Erkennung handschriftlicher Texte.
  • Feldhintergrund entfernen — Verbessert die Erkennung, wenn das Feld einen Rahmen, Kästchen für einzelne Zeichen oder Platzhaltertext enthält. Wenn Sie diese Option aktivieren, laden Sie das leere Formulardokument hoch, das als Hintergrundvorlage dient, und markieren Sie das entsprechende Feld im leeren Formular. Das leere Formular wird im Dokumentensatz mit einem Symbol gekennzeichnet angezeigt.
  • Spezielle Schriftarten — Verbessert die Erkennungsgenauigkeit, wenn das Feld eine bestimmte Schriftart verwendet. Sie können mehr als eine Schriftart auswählen.
Die Erkennung handschriftlicher Texte ist für neue Document-Skills standardmäßig aktiviert. Um sie zu aktivieren oder zu deaktivieren, klicken Sie rechts neben dem Skill-Namen auf das Symbol für die Skill-Einstellungen, öffnen Sie die Registerkarte Languages, und aktivieren oder deaktivieren Sie Handschriftlich erkannt im Abschnitt Text Appearance.

Unterstützte Schriftarten

SchriftartBeschreibungSchriftbeispiel
FaxEine Schriftart, wie sie typischerweise von Faxgeräten verwendet wird.Fax-Schriftbeispiel
GotischIn gotischer Schrift gedruckte Texte.Gotisches Schriftbeispiel
IndexEin spezieller Zeichensatz, der nur Ziffern im Stil von Postleitzahlen enthält.Index-Schriftbeispiel
NadeldruckerTexte, die mit einem Nadeldrucker gedruckt wurden.Nadeldrucker-Schriftbeispiel
MICR CMC-7Eine spezielle MICR-Barcode-Schriftart (CMC-7).MICR CMC-7-Schriftbeispiel
MICR E-13BMit magnetischer Tinte gedruckte numerische Zeichen. MICR-Zeichen (Magnetic Ink Character Recognition) kommen auf verschiedenen Dokumenten vor, darunter auch auf Privatschecks.MICR E-13B-Schriftbeispiel
OCR-AEine nichtproportionale Schriftart, die für Optical Character Recognition (OCR) entwickelt wurde. Sie wird häufig von Banken, Kreditkartenunternehmen und ähnlichen Firmen genutzt.OCR-A-Schriftbeispiel
OCR-BEine Schriftart, die für Optical Character Recognition (OCR) entwickelt wurde.OCR-B-Schriftbeispiel
KassenbonFür Text in geringer Qualität, typischerweise in einer nichtproportionalen oder normalen Schriftart, wie sie auf Kassenbons verwendet wird.Kassenbon-Schriftbeispiel
SchreibmaschineMaschinengeschriebene Texte.Schreibmaschinen-Schriftbeispiel

Eigenschaften nach Datentyp

Zusätzliche Eigenschaften hängen vom Datentyp ab.

Text

Value-Einstellungen:
  • Maximale Länge — Die maximal zulässige Anzahl von Zeichen. Wenn der extrahierte Wert diese Länge überschreitet, zeigt Vantage einen Fehler an. Wenn der Prozess eine Phase der Manuellen Überprüfung enthält, wird das Dokument zur Manuellen Überprüfung weitergeleitet.
  • Regulärer Ausdruck — Ein Muster, das den gültigen Zeichensatz für das Feld einschränkt und so die Extraktionsgenauigkeit verbessern kann. So können Sie beispielsweise erzwingen, dass jedes Zeichen als Ziffer erkannt wird, ein bestimmtes Telefonnummernformat abgleichen oder prüfen, ob ein Feld ein numerisches Gewicht mit Einheiten enthält.
Beispiel 1 — Telefonnummern wie 1-(234)-567-8900 oder 2 (987) 654 3211:
/^(1|2)(\-|\s)\([\d]{3}\)(\-|\s)[\d]{3}(\-|\s)[\d]{4}$/
Beispiel 2 — Gewichtsangaben wie 50lb, 50lbs, 50Lb, 50Lbs, 50 lb oder 50 lbs:
/^[\d]*(\s)?(L|l)b(s)?$/
Reguläre Ausdrücke haben keinen Einfluss auf die Texterkennung in PDF-Dokumenten.

Date

Value kann folgende Einstellungen enthalten:
  • Uhrzeit — Einen Zeitwert zulassen. Wenn deaktiviert, wird keine Uhrzeit extrahiert.
  • Wochentag — Einen Wochentag im Feld zulassen. Wenn deaktiviert, wird kein Wochentag extrahiert.
  • Monat als Name — Zulassen, dass der Monat als Wort ausgeschrieben wird.

Zulässige Reihenfolge der Komponenten

Wählen Sie ein oder mehrere Dateformate aus: Tag-Monat-Jahr, Monat-Tag-Jahr oder Jahr-Monat-Tag. Wenn das erkannte Format keinem der ausgewählten Formate entspricht, wird das Dokument zur manuellen Überprüfung weitergeleitet.

Zulässiger Datebereich

Geben Sie einen gültigen Datebereich als Anzahl der Monate vor und nach dem Tag an, an dem das Dokument verarbeitet wurde. Verwenden Sie ganze Zahlen. Eine Regel prüft, ob das extrahierte Date innerhalb dieses Bereichs liegt; Daten außerhalb des Bereichs werden zur manuellen Überprüfung weitergeleitet.

Number

Die Einstellungen für Value legen fest, um welche Art von Zahl es sich bei dem erkannten Wert handelt (Ganzzahl oder Dezimalzahl) und welche Zahlenformate im Feld zulässig sind. Werte, die die Anforderungen nicht erfüllen, führen dazu, dass das Dokument zur manuellen Überprüfung gesendet wird.
  • Nur Ganzzahlen — Der Wert muss eine Ganzzahl sein. Alle Trennzeichen in der erkannten Zahl werden als Tausendertrennzeichen behandelt.
  • Der Nachkommateil darf mehr als zwei Ziffern enthalten — Aktivieren Sie diese Option, wenn der Dezimalteil voraussichtlich mehr als zwei Ziffern enthält. Zulässige Dezimaltrennzeichen: Punkt (.), Komma (,), Bindestrich (-), Gleichheitszeichen (=), Leerzeichen.
  • Darf negative Werte haben — Negative Werte zulassen, gekennzeichnet durch ein Minuszeichen oder Klammern.
  • Darf das Symbol ’%’ enthalten — Ein Prozentzeichen vor oder nach dem Wert zulassen.

Die Number muss innerhalb des Intervalls liegen

Legen Sie einen Mindest- und einen Höchstwert fest (Ganzzahlen oder Dezimalzahlen, positiv oder negativ). Eine Regel prüft, ob der Wert innerhalb des Bereichs liegt; Werte außerhalb des Bereichs führen dazu, dass das Dokument zur manuellen Überprüfung gesendet wird.
Money-Felder verwenden dieselben Eigenschaften wie Number, mit der Ausnahme, dass das Prozentzeichen nicht zulässig ist.

Dokumente kennzeichnen

Richtlinien zum Kennzeichnen strukturierter und semistrukturierter Dokumente während des Trainings.

Unterstützte Erkennungssprachen

Vollständige Liste der OCR-Sprachen, die von Vantage Skills unterstützt werden.