Zum Hauptinhalt springen

Dokument

Eine Sammlung aus einem oder mehreren Seitenbildern sowie den daraus extrahierten Daten.

Dokumentdefinition

Eine Dokumentdefinition legt die Grundsätze fest, die zur Identifizierung und Verarbeitung eines bestimmten Dokumenttyps verwendet werden. Eine Dokumentdefinition definiert:
  • die Dokumentstruktur, d. h. die zulässige Reihenfolge der Seiten in Dokumenten dieses Typs (diese Information wird für die korrekte Zusammenstellung von Seiten zu Dokumenten verwendet)
  • Dokumentabschnitte
  • Regeln, die Felddaten erfüllen müssen
  • die Positionen der Felder und ihrer Beschriftungen im Datenformular
  • Einstellungen für den Dokumentexport
  • Einstellungen für die Dokumentverarbeitung

Dokumenttyp

Dokumente mit bestimmten gemeinsamen Merkmalen, die daher innerhalb eines Geschäftsprozesses einheitlich verarbeitet werden. Beispiele für Dokumenttypen sind Rechnungen, Verträge und Reisepässe.

Entität

Ein Feld oder eine Gruppe von Feldern, die Informationen enthalten, die mithilfe von NLP-Technologie extrahiert werden sollen. Beispiele für Entitäten sind Personen, Unternehmen, Orte, Beträge und Datumsangaben.

Feld

Ein Dokumentelement für die Datenextraktion. Felder können einfach oder komplex sein. Ein Beispiel für ein komplexes Feld ist ein Feld vom Typ „Tabelle“, bei dem jede Zelle als separates untergeordnetes Feld betrachtet werden kann.

N

NER (Named Entity Recognition) Eine Aufgabe der Informationsextraktion, bei der Erwähnungen benannter Entitäten in unstrukturierten Texten identifiziert und klassifiziert werden. NLP (Natural Language Processing) Ein Teilgebiet der künstlichen Intelligenz und der Computerlinguistik, das sich mit der computergestützten Analyse und Synthese natürlicher Sprache befasst. Eine Anwendung von NLP ist die Informationsextraktion. Weitere Einsatzmöglichkeiten von NLP sind maschinelle Übersetzung, Chatbots, Dokumentklassifizierung und Sentimentanalyse.

NLP-Modell

Ein Mechanismus, der bestimmt, welche Entitäten und Segmente aus Texten extrahiert werden sollen und auf welche Weise. Der Themenbereich und der Extraktionsalgorithmus werden beim Training eines NLP-Modells ausgewählt.

S

Segment Ein Textfragment, das aus einem oder mehreren Paragraphen besteht und Daten enthält, die extrahiert werden müssen. Ein Segment kann auch ein Feld sein, das extrahiert werden muss (zum Beispiel Bedingungen für die Beendigung einer Vereinbarung). Segmentierung Der Prozess des Identifizierens von Segmenten. Die Segmentierung geht der Informationsextraktion voraus und ist bei großen Dokumenten nützlich, da sie die Suche nach Entitäten auf bestimmte Textfragmente eingrenzt.