Zum Hauptinhalt springen
Wir haben die Aktivität „Krankmeldung DE“ fertig konfiguriert und sind bereit, den zweiten Satz von Extraktionsregeln für die andere Klasse von Krankmeldungen zu erstellen. Die Struktur niederländischer und belgischer Krankmeldungen unterscheidet sich deutlich von der der deutschen Dokumente. Es gibt viele Varianten innerhalb dieser Klasse, daher können wir diesmal die Fast-Learning-Aktivität nicht verwenden, um Felder zu extrahieren. Diese Dokumente enthalten zusätzliche Informationen, die in den deutschen Krankmeldungen nicht vorhanden sind, sodass wir bei der Konfiguration der Aktivität auch neue Felder hinzufügen. Wir beginnen damit, die auf allen Dokumenten verfügbaren Daten zu extrahieren, und fügen anschließend weitere Felder zum Datenformular hinzu. Sie können zu einer anderen Aktivität wechseln, ohne den Activity Editor zu schließen. Klicken Sie auf den aktuellen Aktivitätsnamen neben dem Skill-Namen und wählen Sie „Krankmeldung BE-NL“ in der Dropdown-Liste aus. Wählen Sie das erste Dokument im Set aus.

Ausstellungsdatum extrahieren

Datumsangaben in diesen Dokumenten lassen sich einfach mit dem Date-Element extrahieren, daher verwenden wir diesmal das automatisch erstellte Such-Element für dieses Feld.
  1. Öffnen Sie den Dialog Manage Fields auf der Registerkarte Fields und wählen Sie ein “Date”-Feld aus, das in dieser Aktivität verwendet werden soll. Klicken Sie auf Save.
  2. Wechseln Sie zur Registerkarte Search Elements. Sie sehen ein Such-Element des Typs Date, das für das Feld “Date” erstellt wurde. Es ist dem Feld automatisch zugeordnet.
  3. Erstellen Sie ein Group-Such-Element mit dem Namen “IssueDateGroup”. Machen Sie das Element optional.
  4. Fügen Sie ein Static Text-Element mit dem Namen “kwDate” hinzu, um das Label zu finden, das uns hilft, das eigentliche Datum zu lokalisieren.
  5. Diese Dokumentklasse enthält Dokumente in niederländischer oder französischer Sprache, daher gibt es mehrere Möglichkeiten für den Label-Text. Sie können jede Option in eine neue Zeile im Dialog Text to find eingeben. Geben Sie in die erste Zeile den Text “Date” und in die zweite Zeile “Datum” ein.
  6. Deaktivieren Sie die Option Search for parts of words.
  7. Ziehen Sie das Such-Element “Date” in die Gruppe und platzieren Sie es unter dem Element “kwDate”.
  8. Legen Sie den Suchbereich für das Element “Date” fest. a. Löschen Sie die Nearest to-Relation, die automatisch hinzugefügt wurde, als das Element erstellt wurde. b. Wählen Sie das Element “kwDate” als das Element aus, das dem gesuchten am nächsten liegt. c. Das Datum kann sich rechts vom Schlüsselwort oder darunter befinden. Geben Sie den Suchbereich unter dem Element “kwDate” an. d. Der Suchbereich sollte auch die Zeile einschließen, auf der sich das Schlüsselwort befindet. Klicken Sie auf das Symbol für die untere Begrenzung rechts neben dem Elementnamen und wählen Sie Top Boundary of Region. Die Zeilen können ungleichmäßig sein, daher setzen Sie den Wert Below auf -10, um den Suchbereich etwas über die Zeile hinaus zu erweitern.
  9. Klicken Sie auf Match, um sicherzustellen, dass das Datum korrekt gefunden wird.
So sollte die Struktur des Such-Elements aussehen: AD_Tutorial_BE_IssueDate_Structure

Extrahieren der Krankheitsdaten

Wir extrahieren diese Daten mithilfe von Key value-Elementen. Das Key value-Element ermöglicht die Suche sowohl nach einer statischen Textbezeichnung als auch nach dem Wert, lässt jedoch nur wenig Variation bei Position und Eigenschaften des Werts zu. In diesen Dokumenten sind die Krankheitsdaten so formatiert, dass jede Datumskomponente in einer separaten Tabellenzelle steht. Die Tabellenzellen können sich in jedem Dokument an nicht standardisierten Stellen befinden, aber die relative Position der Zellen ist stets gleich. Auch wenn die Grenzen der Tabellenzellen nicht immer eindeutig sind, verwenden wir dennoch das Element Table Cell, da es unscharfe Ränder zulässt und praktisch ist, wenn wir die Aktivität auf weitere Dokumente trainieren möchten. Zur Organisation der Hierarchie der Suchelemente verwenden wir daher das Element Group. Hinweis: Sie können das Element Table Cell nicht nur für Felder verwenden, die sich in Dokumenttabellen befinden. Es kann auch nützlich sein, wenn Sie Daten aus einem Formular extrahieren müssen, in dem sich Inhalte in ähnlichen Kästchen oder tabellenähnlichen Strukturen befinden. Wenn diese Kästchen klare Trennlinien haben, erweist sich das Element Table Cell als sehr effektiv.
  1. Öffnen Sie den Dialog Manage Fields und fügen Sie der aktuellen Aktivität die folgenden Felder hinzu:
    • Start Date
    • End Date
    Klicken Sie auf Save.
  2. Gehen Sie zur Registerkarte Search Elements und erstellen Sie das Element Group für die Extraktion des Startdatums. Legen Sie die folgenden Parameter für die in die Gruppe aufgenommenen Elemente fest:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
Hinweis: Das Element Table Cell gibt den Text aus der Zelle unverändert zurück. In diesem Fall enthält das Suchmuster eine Number, die nur Ziffern erkennt, sodass der vom Element zurückgegebene Text eine Zahl ist.
  1. Erstellen Sie eine Kopie des Elements “StartDateGroup” und benennen Sie sie in “EndDateGroup” um.
  2. Benennen Sie die Unterelemente der Gruppe um: “kwStartDate” in “kwEndDate”, “StartDateDay” in “EndDateDay”, “StartDateMonth” in “EndDateMonth”, “StartDateYear” in “EndDateYear”.
  3. Ändern Sie den zu suchenden Text des Elements “kwEndDate” in “Tot en met / Till and incl., Jusqu’ au, Tot en met”.
  4. Legen Sie den Suchbereich für das Element “EndDateDay” fest. Es sollte sich unterhalb des Elements “kwEndDate” befinden und diesem am nächsten liegen. Löschen Sie die anderen Beziehungen.
  5. Öffnen Sie den Dialog Manage Fields und fügen Sie ein Data Composition Field namens “Start Date Composed” hinzu. Ordnen Sie die folgenden Elemente den Feldern zu:
    • “StartDateDay” zu Day
    • “StartDateMonth” zu Month
    • “StartDateYear” zu Year
    Klicken Sie auf Save.
  6. Erstellen Sie ein Data Composition Field namens “End Date Composed”. Ordnen Sie die folgenden Elemente den Feldern zu:
    • “EndDateDay” zu Day
    • “EndDateMonth” zu Month
    • “EndDateYear” zu Year
    Klicken Sie auf Save.
  7. Ordnen Sie die Data-Composition-Felder “Start Date Composed” und “End Date Composed” den Feldern “Start Date” und “End Date” zu.
So sollte die Struktur der Suchelemente aussehen: AD_Tutorial_BE_Dates_Structure

Den Typ der Krankenmeldung extrahieren

Wir extrahieren den Typ der Krankenmeldung mithilfe eines Kontrollkästchens genau so wie bei den deutschen Dokumenten.
  1. Öffnen Sie auf der Registerkarte Fields den Dialog Manage Fields und aktivieren Sie die Kontrollkästchengruppe „Type of Sick Note“. Aktivieren Sie in der Gruppe die Kontrollkästchen „Primary“ und „Secondary“, damit sie in der aktuellen Aktivität verwendet werden. Klicken Sie auf Save.
  2. Erstellen Sie eine Struktur ähnlich der für die deutschen Dokumente, beachten Sie jedoch, dass in niederländischen und belgischen Dokumenten das Label (der Text neben dem Kontrollkästchen) zuerst steht. Die Reihenfolge der Kindelemente ist bei solchen Gruppen wichtig. a. Erstellen Sie ein Group-Element mit dem Namen „TypeOfSickNoteGroup“. b. Erstellen Sie eine Kopie dieser Gruppe und benennen Sie sie in „PrimaryGroup“ um. Platzieren Sie sie innerhalb von „TypeOfSickNoteGroup“. c. Fügen Sie der Gruppe „PrimaryGroup“ ein Static Text-Element mit dem Namen „kwCheckmark“ hinzu. d. Setzen Sie den zu suchenden Text auf „eerste / Primary, première, primair“.
Hinweis: In diesen Dokumenten steht der Text neben dem Kontrollkästchen links vom Kontrollkästchen. Daher setzen wir den Suchbereich links davon, nicht rechts. Konfigurieren Sie die übrigen Elemente gemäß der folgenden Tabelle:
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. Erstellen Sie eine Kopie von „PrimaryGroup“ und benennen Sie sie in „SecondaryGroup“ um. Ändern Sie den zu suchenden Text des Elements „kwCheckmark“ in „prolongation“, „verlenging“. f. Deutsche Krankenmeldungen wurden in zwei Typen unterteilt. Im Gegensatz dazu werden niederländische und belgische Krankenmeldungen in drei Typen unterteilt („relapse“ ist ein zusätzlicher Typ). Erstellen Sie daher eine weitere Kopie der Gruppe „PrimaryGroup“ und benennen Sie sie in „RelapseGroup“ um. g. Ändern Sie den zu suchenden Text des Elements „kwCheckmark“ in „Herval“ und aktivieren Sie die Option Match case, um Wörter auszuschließen, die in der Mitte eines Satzes vorkommen. So sollte die Struktur der Suchelemente aussehen: AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Öffnen Sie das Fenster Manage Fields und fügen Sie der Kontrollkästchengruppe „Type of Sick Note“ ein Kontrollkästchen „Relapse“ hinzu. Aktivieren Sie alle Kontrollkästchen in der Gruppe für die Verwendung in der aktuellen Aktivität und klicken Sie auf Save.
  2. Ordnen Sie die Kontrollkästchen den entsprechenden Region-Elementen zu und löschen Sie die Elemente, die beim Aktivieren der Felder automatisch erstellt wurden.

Testen der Aktivität

Wir haben alle erforderlichen Suchelemente und Felder konfiguriert. Wählen Sie alle Dokumente aus, klicken Sie auf Match und wechseln Sie zur Registerkarte Felder, um die Feldbereiche auf den Dokumentbildern zu überprüfen. Beachten Sie, dass ein Bereich nur einem Feld zugewiesen wird, wenn er zur Hypothese aus dem besten Pfad gehört. Wenn Sie mit den Ergebnissen zufrieden sind, klicken Sie auf das Kopier-icon oberhalb des Dokumentbildes, um die vorhergesagte Beschriftung in die Referenzbeschriftung zu kopieren.