Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Nachdem die deutsche Aktivität konfiguriert ist, richten Sie die zweite Aktivität Extraction Rules für niederländische und belgische Krankschreibungen ein. Niederländische und belgische Krankschreibungen haben eine andere Struktur als die deutschen Dokumente und unterscheiden sich innerhalb der Klasse stark, daher ist Fast Learning hier keine praktikable Option. Einige Felder kommen nur in diesen Dokumenten vor — Sie fügen sie beim Konfigurieren der Aktivität dem Datenformular hinzu. Beginnen Sie mit den Feldern, die in jedem Dokument vorkommen, und erweitern Sie das Formular dann um die neuen.
Wechseln Sie zwischen Aktivitäten, ohne den Activity Editor zu schließen, indem Sie auf den aktuellen Aktivitätsnamen neben dem Skill-Namen klicken und im Dropdown „Sick Note BE-NL“ auswählen. Wählen Sie anschließend das erste Dokument im Set aus.

Auslesen des Ausstellungsdatums

Datumsangaben in diesen Dokumenten lassen sich mit dem Element Date leicht auslesen. Daher verwenden wir diesmal das Suchelement, das für dieses Feld automatisch erstellt wurde.
1

Das Feld Date hinzufügen

  1. Öffnen Sie auf der Registerkarte Fields den Dialog Manage Fields und wählen Sie ein Feld „Date“ aus, das in dieser Activity verwendet werden soll. Klicken Sie auf Save.
  2. Wechseln Sie zur Registerkarte Search Elements. Für das Feld „Date“ wurde automatisch ein Suchelement vom Typ Date erstellt und zugeordnet.
2

IssueDateGroup mit der Bezeichnung kwDate erstellen

  1. Erstellen Sie ein Suchelement vom Typ Group mit dem Namen „IssueDateGroup“ und machen Sie es optional.
  2. Fügen Sie innerhalb der Gruppe ein Element Static Text mit dem Namen „kwDate“ hinzu — damit wird die Bezeichnung gefunden, die beim Auffinden des eigentlichen Datums hilft.
  3. Da diese Dokumentklasse Dokumente auf Niederländisch oder Französisch enthält, geben Sie im Dialog Text to find die Optionen für den Bezeichnungstext in separaten Zeilen ein: „Date“ in der ersten Zeile und „Datum“ in der zweiten Zeile.
  4. Deaktivieren Sie die Option Search for parts of words.
3

Das Element Date zur Gruppe hinzufügen

Ziehen Sie das Suchelement „Date“ per Drag-and-drop in die Gruppe und platzieren Sie es unter dem Element „kwDate“.
4

Den Suchbereich des Elements Date konfigurieren

  1. Löschen Sie die Beziehung Nearest to, die beim Erstellen des Elements automatisch hinzugefügt wurde.
  2. Wählen Sie das Element „kwDate“ als das Element aus, das dem gesuchten Element am nächsten liegt.
  3. Das Datum kann sich rechts neben dem Schlüsselwort oder darunter befinden. Legen Sie den Suchbereich unterhalb des Elements „kwDate“ fest.
  4. Der Suchbereich sollte auch die Zeile einschließen, in der sich das Schlüsselwort befindet. Klicken Sie rechts neben dem Elementnamen auf das Symbol für die untere Begrenzung und wählen Sie Top Boundary of Region aus. Da die Zeilen ungleichmäßig sein können, setzen Sie den Wert Below auf -10, um den Suchbereich leicht über die Zeile hinaus nach oben zu erweitern.
5

Prüfen, ob das Datum gefunden wird

Klicken Sie auf Match, um sicherzustellen, dass das Datum korrekt gefunden wird.Die Struktur des Suchelements sollte wie folgt aussehen:
Hierarchie der Suchelemente für das belgisch-niederländische Ausstellungsdatum: IssueDateGroup mit dem Schlüsselwort kwDate und dem Element Date

Die Krankheitsdaten extrahieren

Wir extrahieren diese Daten mithilfe von Schlüsselwert-Elementen. Das Schlüsselwert-Element ermöglicht die Suche sowohl nach einem statischen Text-Label als auch nach dem Wert. Allerdings erlaubt es nicht allzu viel Variation bei der Position und den Eigenschaften des Werts. In diesen Dokumenten sind die Krankheitsdaten so formatiert, dass jede Datumskomponente in einer separaten Zelle einer Tabelle steht. Die Tabellenzellen können sich in jedem Dokument an nicht standardmäßigen Stellen befinden, aber die relative Position der Zellen ist immer gleich. Wir können uns nicht darauf verlassen, dass die Grenzen der Tabellenzellen sehr deutlich sind, verwenden aber dennoch das Element Tabellenzelle, da es unscharfe Ränder zulässt und praktisch sein wird, wenn wir uns entscheiden, die Aktivität mit mehr Dokumenten zu trainieren. Daher verwenden wir das Element Group, um die Hierarchie der Such-Elemente zu organisieren.
Sie können das Element Tabellenzelle nicht nur für Felder verwenden, die sich innerhalb von Dokumenttabellen befinden. Es kann auch nützlich sein, wenn Sie Daten aus einem Formular extrahieren müssen, in dem sich die Inhalte in ähnlichen Kästchen oder tabellenähnlichen Strukturen befinden. Wenn diese Kästchen klare Trennlinien haben, wird sich das Element Tabellenzelle als sehr effektiv erweisen.
1

Fügen Sie die Felder Start Date und End Date hinzu

Öffnen Sie den Dialog Manage Fields und fügen Sie der aktuellen Aktivität die folgenden Felder hinzu:
  • Start Date
  • End Date
Klicken Sie auf Save.
2

Erstellen Sie die StartDateGroup mit Table-Cell-Elementen

Wechseln Sie zur Registerkarte Search Elements und erstellen Sie das Element Group für die Extraktion des Startdatums. Legen Sie die folgenden Parameter für die in der Gruppe enthaltenen Elemente fest:
ParameterValue
Group Such-Element:
NameStartDateGroup
Static Text Such-Element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell Such-Elemente:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell Such-Element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell Such-Element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
Das Element Table Cell gibt den Text aus der Zelle unverändert zurück. In diesem Fall enthält das Suchmuster eine Number, die nur die Ziffern erkennt, sodass der vom Element zurückgegebene Text eine Zahl ist.
3

Erstellen Sie die EndDateGroup als Kopie

  1. Erstellen Sie eine Kopie des Elements “StartDateGroup” und benennen Sie sie in “EndDateGroup” um.
  2. Benennen Sie die Unterelemente der Gruppe um: “kwStartDate” in “kwEndDate”, “StartDateDay” in “EndDateDay”, “StartDateMonth” in “EndDateMonth”, “StartDateYear” in “EndDateYear”.
  3. Ändern Sie den zu suchenden Text des Elements “kwEndDate” in “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Legen Sie den Suchbereich für das Element “EndDateDay” fest: unter dem Element “kwEndDate” und diesem am nächsten. Löschen Sie die anderen Relationen.
4

Fügen Sie Data-Composition-Felder für die Datumsangaben hinzu

  1. Öffnen Sie den Dialog Manage Fields und fügen Sie ein Data Composition Field mit dem Namen “Start Date Composed” hinzu. Ordnen Sie die folgenden Elemente den Feldern zu:
    • “StartDateDay” zu Day
    • “StartDateMonth” zu Month
    • “StartDateYear” zu Year
    Klicken Sie auf Save.
  2. Erstellen Sie ein Data Composition Field mit dem Namen “End Date Composed”. Ordnen Sie die folgenden Elemente den Feldern zu:
    • “EndDateDay” zu Day
    • “EndDateMonth” zu Month
    • “EndDateYear” zu Year
    Klicken Sie auf Save.
  3. Ordnen Sie die Data-Composition-Felder “Start Date Composed” und “End Date Composed” den Feldern “Start Date” und “End Date” zu.
Die Struktur der Such-Elemente sollte wie folgt aussehen:
Hierarchie der Such-Elemente für die belgisch-niederländischen Krankheitsdaten: StartDateGroup und EndDateGroup, jeweils mit einem Static-Text-Schlüsselwort und drei Table-Cell-Elementen für Tag, Monat und Jahr

Den Typ der Krankschreibung extrahieren

Wir extrahieren den Typ der Krankschreibung mithilfe eines Häkchens genau so, wie wir es bei den deutschen Dokumenten getan haben.
1

Die Häkchen Primary und Secondary aktivieren

Öffnen Sie auf der Registerkarte Felder den Dialog Manage Fields und aktivieren Sie die Häkchengruppe “Type of Krankschreibung”. Aktivieren Sie in der Gruppe die Häkchen “Primary” und “Secondary”, damit sie in der aktuellen Aktivität verwendet werden. Klicken Sie auf Save.
2

Das Label TypeOfSickNoteGroup und PrimaryGroup erstellen

Erstellen Sie eine Struktur ähnlich der für die deutschen Dokumente erstellten, beachten Sie jedoch, dass in niederländischen und belgischen Dokumenten das Label zuerst steht — die Reihenfolge der Kindelemente ist bei solchen Gruppen wichtig.
  1. Erstellen Sie ein Group-Element mit dem Namen “TypeOfSickNoteGroup”.
  2. Erstellen Sie eine Kopie dieser Gruppe, benennen Sie sie in “PrimaryGroup” um und platzieren Sie sie innerhalb von “TypeOfSickNoteGroup”.
  3. Fügen Sie der Gruppe “PrimaryGroup” ein Static Text-Element mit dem Namen “kwCheckmark” hinzu.
  4. Setzen Sie den zu suchenden Text auf “eerste / Primary, première, primair”.
In diesen Dokumenten befindet sich der Text neben dem Häkchen links vom Häkchen. Daher setzen wir den Suchbereich links davon und nicht rechts.
3

Die Elemente Checkmark, XMark und CheckmarkRegion konfigurieren

Konfigurieren Sie die übrigen Elemente innerhalb von “PrimaryGroup” gemäß dieser Tabelle:
ParameterValue
Static Text Such-Element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text Such-Element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region Such-Element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
4

SecondaryGroup und RelapseGroup erstellen

  1. Erstellen Sie eine Kopie von “PrimaryGroup” und benennen Sie sie in “SecondaryGroup” um. Ändern Sie den zu suchenden Text des Elements “kwCheckmark” in “prolongation”, “verlenging”.
  2. Niederländische und belgische Krankschreibungen werden in drei Typen unterteilt — ‘relapse’ ist im Vergleich zu deutschen Krankschreibungen ein zusätzlicher Typ. Erstellen Sie eine weitere Kopie von “PrimaryGroup” und benennen Sie sie in “RelapseGroup” um.
  3. Ändern Sie den zu suchenden Text des Elements “kwCheckmark” in RelapseGroup zu “Herval” und aktivieren Sie die Option Match case, um Wörter auszuschließen, die in der Mitte eines Satzes vorkommen.
So sollte die Struktur des Such-Elements aussehen:
Such-Element-Hierarchie für den belgisch-niederländischen Typ der Krankschreibung: TypeOfSickNoteGroup mit PrimaryGroup, SecondaryGroup und RelapseGroup, jeweils mit den Elementen kwCheckmark, Checkmark, XMark und CheckmarkRegion
5

Das Häkchen Relapse hinzufügen und Felder zuordnen

  1. Öffnen Sie das Fenster Manage Fields und fügen Sie der Häkchengruppe “Type of Krankschreibung” ein Häkchen “Relapse” hinzu. Aktivieren Sie alle Häkchen in der Gruppe für die Verwendung in der aktuellen Aktivität und klicken Sie auf Save.
  2. Ordnen Sie die Häkchen den entsprechenden Region-Elementen zu und löschen Sie die Elemente, die beim Aktivieren der Felder automatisch erstellt wurden.

Testen der Aktivität

Wir haben alle erforderlichen Suchelemente und Felder konfiguriert. Wählen Sie alle Dokumente aus, klicken Sie auf Match und wechseln Sie zur Registerkarte Felder, um die Feldbereiche auf den Dokumentbildern zu überprüfen. Beachten Sie, dass ein Bereich nur einem Feld zugewiesen wird, wenn er zur Hypothese aus dem besten Pfad gehört. Wenn Sie mit den Ergebnissen zufrieden sind, klicken Sie auf das Kopier-icon oberhalb des Dokumentbildes, um die vorhergesagte Beschriftung in die Referenzbeschriftung zu kopieren.

Was kommt als Nächstes

Schritt 9. Geschäftsregeln konfigurieren

Fügen Sie Geschäftsregeln hinzu, um extrahierte Feldwerte zu validieren und zu normalisieren.

Tutorial-Übersicht

Zurück zur Einführung des Tutorials.