Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Ein “gemischter” Dokumentensatz kann in Advanced Designer zwei Bedeutungen haben:
  • Ein einzelner Satz, der sowohl semi-strukturierte als auch unstrukturierte Dokumente enthält (verschiedene Dokumenttypen).
  • Ein einzelnes Dokument mit gemischter Struktur — zum Beispiel ein unstrukturierter Vertrag mit eingebetteten Tabellen, Titeln, Kopf- oder Fußzeilen.

Wählen Sie ein Szenario aus

SzenarioWann verwendenWichtige Aktivitäten
Semi-strukturierte und unstrukturierte Dokumente in einem SetBeide gehören zu einem logischen Typ mit gemeinsamen AusgabefeldernClassify + IF + Fast Learning + Segmentation + Deep Learning for NLP
Tabellenzellen mit eingebetteten FeldernWerte aus Tabellenzellen extrahieren (z. B. Namen in einer Closing Disclosure)Fast Learning + NER (+ Address Parsing)
Unstrukturierte Dokumente mit eingebetteten Tabellen/Titeln/Kopf-/FußzeilenÜberwiegend unstrukturierte Dokumente mit semi-strukturierten FragmentenSegmentation + Extraction Rules
Jedes der folgenden Szenarien folgt einem gemeinsamen Muster; nur die Aktivitäten, die Sie zum Verarbeitungsablauf hinzufügen, unterscheiden sich.

Typischer Workflow

1

Document-Skill erstellen

Öffnen Sie Advanced Designer und klicken Sie auf der Startseite auf Create Document Skill.
2

Dokumente hochladen

Laden Sie auf der Registerkarte Documents die Dokumente hoch, die Sie zum Einrichten des Skills verwenden möchten.
3

Felder definieren und labeln

Erstellen und konfigurieren Sie auf der Registerkarte Fields die Felder, die der Skill extrahieren soll. Labeln Sie die Dokumente im Abschnitt Reference.
4

Aktivitäten hinzufügen und konfigurieren

Fügen Sie auf der Registerkarte Activities die Aktivitäten für Ihr Szenario hinzu (wie unten beschrieben). Öffnen Sie jede Aktivität im Activity Editor, um sie zu konfigurieren und zu trainieren.
5

Testen und veröffentlichen

Klicken Sie auf Test Skill Using Selected Documents, um die Ergebnisse auszuwerten. Wenn die Ergebnisse gut genug sind, veröffentlichen Sie den Skill.

Semi-strukturierte und unstrukturierte Dokumente in einem Set

Verwenden Sie dieses Szenario, wenn ein Document-Skill sowohl semi-strukturierte als auch unstrukturierte Dokumente verarbeiten muss — beide gehören zum selben logischen Typ und haben dieselben Ausgabefelder. Klassifizieren Sie jedes Dokument mit einer Classify By Text and Image activity, die Text und Geometrie kombiniert, um Bilder schlechter Qualität und Dokumente zu verarbeiten, die sich nur durch grafische Merkmale (Unterschriften, Siegel) unterscheiden. Um optimale Ergebnisse zu erzielen, laden Sie für jede Variante ungefähr gleich viele Dokumente hoch, damit der Klassifikator mit ausgewogenen Trainingsdaten arbeitet. Verzweigen Sie den Ablauf dann mit einer IF-Aktivität:
Dokumentverarbeitungsablauf mit Classify und IF-Verzweigung in Fast Learning und Segmentation + Deep Learning for NLP

Tabellenzellen mit im Zelltext eingebetteten Feldern

Verwenden Sie dieses Szenario, wenn Sie bestimmte Werte aus Tabellenzellen in semi-strukturierten Dokumenten extrahieren müssen — zum Beispiel den Namen eines Kreditnehmers und Teile einer Adresse, die in einer Closing-Disclosure-Zelle enthalten sind. Extrahieren Sie die Zelle als zusammenhängenden Textblock mit einer Fast Learning-Aktivität und führen Sie dann NLP-Aktivitäten für diesen Block aus, um die eingebetteten Felder zu extrahieren:
Dokumentverarbeitungsfluss, in dem Fast Learning Named Entities (NER)- und Address Parsing-Aktivitäten speist

Unstrukturierte Dokumente mit Tabellen, Titeln, Kopf- oder Fußzeilen

Verwenden Sie dieses Szenario für Dokumente, die größtenteils unstrukturiert sind (zum Beispiel Verträge), aber eingebettete semi-strukturierte Fragmente wie Tabellen, Titel, Kopf- oder Fußzeilen enthalten. Erkennen Sie Textabsätze mit einer Segmentation-Aktivität und die semi-strukturierten Fragmente mit einer Extraction Rules-Aktivität. Sobald jedes Fragment isoliert ist, verwenden Sie die entsprechende Aktivität, um seine Felder zu extrahieren.
Beispieldokument mit Absätzen aus unstrukturiertem Text neben einer semi-strukturierten Tabelle

Classify By Text and Image

Klassifizieren Sie Dokumente durch die Kombination von Text- und visuellen Merkmalen.

Fast Learning-Aktivität

Extrahieren Sie Felder aus semi-strukturierten Dokumenten und Tabellenzellen.

Segmentation-Aktivität

Isolieren Sie Absätze mit unstrukturierten Feldern.

Deep Learning for NLP-Aktivität

Extrahieren Sie benutzerdefinierte oder schwer unterscheidbare Entitäten aus unstrukturiertem Text.

Named Entities (NER)-Aktivität

Extrahieren Sie vorab trainierte Entitäten wie Namen, Organisationen und Datumsangaben.

Extraction Rules-Aktivität

Definieren Sie eine regelbasierte Extraktion für semi-strukturierte Fragmente.