Zum Hauptinhalt springen
Wir haben die Aktivität „Krankmeldung DE“ fertig konfiguriert und sind bereit, den zweiten Satz von Extraktionsregeln für die andere Klasse von Krankmeldungen zu erstellen. Die Struktur niederländischer und belgischer Krankmeldungen unterscheidet sich deutlich von der der deutschen Dokumente. Es gibt viele Varianten innerhalb dieser Klasse, daher können wir diesmal die Fast-Learning-Aktivität nicht verwenden, um Felder zu extrahieren. Diese Dokumente enthalten zusätzliche Informationen, die in den deutschen Krankmeldungen nicht vorhanden sind, sodass wir bei der Konfiguration der Aktivität auch neue Felder hinzufügen. Wir beginnen damit, die auf allen Dokumenten verfügbaren Daten zu extrahieren, und fügen anschließend weitere Felder zum Datenformular hinzu. Sie können zu einer anderen Aktivität wechseln, ohne den Activity Editor zu schließen. Klicken Sie auf den aktuellen Aktivitätsnamen neben dem Skill-Namen und wählen Sie „Krankmeldung BE-NL“ in der Dropdown-Liste aus. Wählen Sie das erste Dokument im Set aus.

Ausstellungsdatum extrahieren

Datumsangaben in diesen Dokumenten lassen sich einfach mit dem Date-Element extrahieren, daher verwenden wir diesmal das automatisch für dieses Feld erstellte Such-Element.
  1. Öffnen Sie den Dialog Manage Fields auf der Registerkarte Felder und wählen Sie ein “Date”-Feld aus, das in dieser Aktivität verwendet werden soll. Klicken Sie auf Save.
  2. Wechseln Sie zur Registerkarte Search Elements. Sie sehen ein Such-Element vom Typ Date, das für das Feld “Date” erstellt wurde. Es ist dem Feld automatisch zugeordnet.
  3. Erstellen Sie ein Group-Such-Element mit dem Namen “IssueDateGroup”. Machen Sie das Element optional.
  4. Fügen Sie ein Static Text-Element mit dem Namen “kwDate” hinzu, um das Label zu finden, das uns hilft, das eigentliche Datum zu lokalisieren.
  5. Diese Dokumentklasse enthält Dokumente in niederländischer oder französischer Sprache, daher gibt es mehrere Möglichkeiten für den Label-Text. Sie können jede Option in einer neuen Zeile im Dialog Text to find eingeben. Geben Sie in die erste Zeile den Text “Date” und in die zweite Zeile “Datum” ein.
  6. Deaktivieren Sie die Option Search for parts of words.
  7. Ziehen Sie das Such-Element “Date” in die Gruppe und platzieren Sie es unter dem Element “kwDate”.
  8. Legen Sie den Suchbereich für das Element “Date” fest.
    a. Löschen Sie die Nearest to-Relation, die automatisch hinzugefügt wurde, als das Element erstellt wurde. b. Wählen Sie das Element “kwDate” als das Element aus, das dem gesuchten am nächsten liegt.
    c. Das Datum kann sich rechts vom Schlüsselwort oder darunter befinden. Geben Sie den Suchbereich unter dem Element “kwDate” an.
    d. Der Suchbereich sollte auch die Zeile einschließen, in der sich das Schlüsselwort befindet. Klicken Sie auf das Symbol für die untere Begrenzung rechts neben dem Elementnamen und wählen Sie Top Boundary of Region. Die Zeilen können ungleichmäßig sein, daher setzen Sie den Wert Below auf -10, um den Suchbereich ein wenig über die Zeile hinaus zu erweitern.
  9. Klicken Sie auf Match, um sicherzustellen, dass das Datum korrekt gefunden wird.
So sollte die Struktur des Such-Elements aussehen: AD_Tutorial_BE_IssueDate_Structure

Die Krankheitsdaten extrahieren

Wir extrahieren diese Daten mithilfe von Key value-Elementen. Das Key value-Element ermöglicht die Suche sowohl nach einem statischen Text-Label als auch nach dem Wert. Allerdings erlaubt es nicht allzu viel Variation bei der Position und den Eigenschaften des Werts. In diesen Dokumenten sind die Krankheitsdaten so formatiert, dass jede Datumskomponente in einer separaten Zelle einer Tabelle steht. Die Tabellenzellen können sich in jedem Dokument an nicht standardmäßigen Stellen befinden, aber die relative Position der Zellen ist immer gleich. Wir können uns nicht darauf verlassen, dass die Grenzen der Tabellenzellen sehr deutlich sind, verwenden aber dennoch das Element Table Cell, da es unscharfe Ränder zulässt und praktisch sein wird, wenn wir uns entscheiden, die Aktivität mit mehr Dokumenten zu trainieren. Daher verwenden wir das Element Group, um die Hierarchie der Such-Elemente zu organisieren.
Sie können das Element Table Cell nicht nur für Felder verwenden, die sich innerhalb von Dokumenttabellen befinden. Es kann auch nützlich sein, wenn Sie Daten aus einem Formular extrahieren müssen, in dem sich die Inhalte in ähnlichen Kästchen oder tabellenähnlichen Strukturen befinden. Wenn diese Kästchen klare Trennlinien haben, wird sich das Element Table Cell als sehr effektiv erweisen.
  1. Öffnen Sie den Dialog Manage Fields und fügen Sie der aktuellen Aktivität die folgenden Felder hinzu:
    • Start Date
    • End Date
    Klicken Sie auf Save.
  2. Wechseln Sie zur Registerkarte Search Elements und erstellen Sie das Element Group für die Extraktion des Startdatums. Legen Sie die folgenden Parameter für die in der Gruppe enthaltenen Elemente fest:
ParameterValue
Group Such-Element:
NameStartDateGroup
Static Text Such-Element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell Such-Elemente:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell Such-Element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell Such-Element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
Das Element Table Cell gibt den Text aus der Zelle unverändert zurück. In diesem Fall enthält das Suchmuster eine Number, die nur die Ziffern erkennt, sodass der vom Element zurückgegebene Text eine Zahl ist.
  1. Erstellen Sie eine Kopie des Elements “StartDateGroup” und benennen Sie sie in “EndDateGroup” um.
  2. Benennen Sie die Unterelemente der Gruppe um: “kwStartDate” in “kwEndDate”, “StartDateDay” in “EndDateDay”, “StartDateMonth” in “EndDateMonth”, “StartDateYear” in “EndDateYear”.
  3. Ändern Sie den zu suchenden Text des Elements “kwEndDate” in “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Legen Sie den Suchbereich für das Element “EndDateDay” fest. Es sollte sich unter dem Element “kwEndDate” befinden und diesem am nächsten sein. Löschen Sie die anderen Relationen.
  5. Öffnen Sie den Dialog Manage Fields und fügen Sie ein Data Composition Field mit dem Namen “Start Date Composed” hinzu. Ordnen Sie die folgenden Elemente den Feldern zu:
    • “StartDateDay” zu Day
    • “StartDateMonth” zu Month
    • “StartDateYear” zu Year
    Klicken Sie auf Save.
  6. Erstellen Sie ein Data Composition Field mit dem Namen “End Date Composed”. Ordnen Sie die folgenden Elemente den Feldern zu:
    • “EndDateDay” zu Day
    • “EndDateMonth” zu Month
    • “EndDateYear” zu Year
    Klicken Sie auf Save.
  7. Ordnen Sie die Data-Composition-Felder “Start Date Composed” und “End Date Composed” den Feldern “Start Date” und “End Date” zu.
So sollte die Struktur des Such-Elements aussehen: AD_Tutorial_BE_Dates_Structure

Den Typ der Krankenmeldung extrahieren

Wir extrahieren den Typ der Krankenmeldung mithilfe eines Häkchens genau so, wie wir es bei den deutschen Dokumenten getan haben.
  1. Öffnen Sie auf der Registerkarte Felder den Dialog Manage Fields und aktivieren Sie die Häkchengruppe “Type of Sick Note”. Aktivieren Sie in der Gruppe die Häkchen “Primary” und “Secondary”, damit sie in der aktuellen Aktivität verwendet werden. Klicken Sie auf Save.
  2. Erstellen Sie eine Struktur ähnlich der für die deutschen Dokumente erstellten, beachten Sie jedoch, dass in niederländischen und belgischen Dokumenten das Label (der Text neben dem Häkchen) zuerst steht. Die Reihenfolge der Kindelemente ist bei solchen Gruppen wichtig. a. Erstellen Sie ein Group-Element mit dem Namen “TypeOfSickNoteGroup”. b. Erstellen Sie eine Kopie dieser Gruppe und benennen Sie sie in “PrimaryGroup” um. Platzieren Sie sie innerhalb von “TypeOfSickNoteGroup”. c. Fügen Sie der Gruppe “PrimaryGroup” ein Static Text-Element mit dem Namen “kwCheckmark” hinzu. d. Setzen Sie den zu suchenden Text auf “eerste / Primary, première, primair”.
In diesen Dokumenten befindet sich der Text neben dem Häkchen links vom Häkchen. Daher setzen wir den Suchbereich links davon und nicht rechts.
Konfigurieren Sie die übrigen Elemente gemäß der folgenden Tabelle:
ParameterValue
Static Text Such-Element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text Such-Element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region Such-Element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. Erstellen Sie eine Kopie von “PrimaryGroup” und benennen Sie sie in “SecondaryGroup” um. Ändern Sie den zu suchenden Text des Elements “kwCheckmark” in “prolongation”, “verlenging”. f. Deutsche Krankenmeldungen wurden in zwei Typen unterteilt. Im Gegensatz dazu werden niederländische und belgische Krankenmeldungen in drei Typen unterteilt (“relapse” ist ein zusätzlicher Typ). Erstellen Sie daher eine weitere Kopie der Gruppe “PrimaryGroup” und benennen Sie sie in “RelapseGroup” um. g. Ändern Sie den zu suchenden Text des Elements “kwCheckmark” in “Herval” und aktivieren Sie die Option Match case, um Wörter auszuschließen, die in der Mitte eines Satzes vorkommen. So sollte die Struktur des Such-Elements aussehen AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Öffnen Sie das Fenster Manage Fields und fügen Sie der Häkchengruppe “Type of Sick Note” ein Häkchen “Relapse” hinzu. Aktivieren Sie alle Häkchen in der Gruppe für die Verwendung in der aktuellen Aktivität und klicken Sie auf Save.
  2. Ordnen Sie die Häkchen den entsprechenden Region-Elementen zu und löschen Sie die Elemente, die beim Aktivieren der Felder automatisch erstellt wurden.

Testen der Aktivität

Wir haben alle erforderlichen Suchelemente und Felder konfiguriert. Wählen Sie alle Dokumente aus, klicken Sie auf Match und wechseln Sie zur Registerkarte Felder, um die Feldbereiche auf den Dokumentbildern zu überprüfen. Beachten Sie, dass ein Bereich nur einem Feld zugewiesen wird, wenn er zur Hypothese aus dem besten Pfad gehört. Wenn Sie mit den Ergebnissen zufrieden sind, klicken Sie auf das Kopier-icon oberhalb des Dokumentbildes, um die vorhergesagte Beschriftung in die Referenzbeschriftung zu kopieren.