Schritt 7. Konfigurieren der Aktivität Sick Note DE

Fahren Sie nun mit den deutschen Dokumenten fort und konfigurieren Sie die zugehörige Aktivität „Extraction Rules“. Fast Learning hat einige Felder bereits verarbeitet. Diese Aktivität übernimmt den Rest.

Bevor Sie beginnen

Öffnen Sie die Aktivität im Activity Editor

Öffnen Sie die Aktivität “Sick Note DE” im Activity Editor.
Wählen Sie eines der Dokumente aus dem Dokumentensatz aus.

Aktivieren Sie erweiterte Elementeigenschaften

Vergewissern Sie sich, dass der erweiterte Modus für die Elementeigenschaften aktiviert ist. Um diesen Modus ein- oder auszuschalten, klicken Sie auf das Symbol im Bereich Properties.

Zwei visuelle Hilfen unterstützen Sie bei der Konfiguration von Suchelementen:

Alle hochgeladenen Dokumente wurden vorab erkannt. Klicken Sie auf das Symbol (oder auf das Symbol und wählen Sie Recognized Words, wenn Sie dieses Symbol aufgrund der Größe Ihres Bildschirms nicht sehen), um erkannte Objekte im Dokumentbild hervorzuheben. Sie können jederzeit zwischen verschiedenen Arten hervorgehobener Objekte wechseln. Zum Beispiel hilft Recognized Lines beim Auffinden von Absätzen, und Separators erleichtert die Konfiguration eines Separator-Suchelements.
Befindet sich ein Suchelement außerhalb des Suchbereichs, wird es nicht gefunden. Aktivieren Sie die Option Show search area im Kontextmenü des Dokumentbilds, damit der Suchbereich für jedes Element grün hervorgehoben wird, wenn Sie das Abgleichergebnis auswerten.

Beachten Sie, dass es hilfreich sein kann, mit erweiterten Eigenschaften der Suchelemente zu experimentieren, um die Extraktionsgenauigkeit zu verbessern. Klicken Sie regelmäßig auf Match, um zu prüfen, wie Ihre Extraktionsregeln funktionieren, und um Extraktionsergebnisse bei verschiedenen Dokumenten im Satz zu vergleichen. Um ein einzelnes Element ohne Beziehungen zu anderen Elementen zu testen, klicken Sie in seinem Kontextmenü auf Match Element. In diesem Fall wirkt sich die Hypothesenqualität vorheriger Elemente nicht auf die Abgleichergebnisse aus.

Extrahieren Sie die Patientendaten

Extrahieren Sie die fehlenden Patientendaten, indem Sie mehrere Suchelemente erstellen. Gruppieren Sie Elemente, die zu einer Einheit gehören. Suchelemente werden nacheinander abgeglichen — wenn ein übergeordnetes Element fehlschlägt, sinkt die Hypothesenqualität für den Rest seiner Kette. Gruppen hingegen werden unabhängig voneinander mit ihrer eigenen Hypothese verarbeitet. So können Sie durch die Gruppierung steuern, wie Elemente sich gegenseitig beeinflussen, und die Abgleichergebnisse auf einen Blick bewerten. Die Gruppierung kann auch die Abgleichszeit verkürzen.

Erstellen Sie die Gruppe PatientDataArea

Klicken Sie auf Create Element und wählen Sie das Element Group aus der Dropdown-Liste aus. Ändern Sie seinen Namen in “PatientDataArea”.
Ändern Sie im Abschnitt Under what conditions den Wert Element is in Optional.

Ein neues Suchelement vom Typ Group ist standardmäßig als erforderlich festgelegt. Wenn ein erforderliches Element nicht gefunden wird, tritt im Activity Editor ein Fehler auf und der Abgleich wird abgebrochen — dadurch können ungeeignete Aktivitäten für ein bestimmtes Dokument übersprungen werden. In diesem Tutorial muss die Aktivität jedoch Daten aus jedem eingehenden Dokument extrahieren, daher legen Sie die Gruppe als optional fest.

Suchen Sie das Patientenlabel mit einem Static Text-Element

In deutschen Dokumenten befindet sich der Absatz mit dem Namen und der Adresse des Patienten immer in dem Feld mit der Bezeichnung “Name, Vorname …”. Suchen Sie diesen Text im Dokument und verwenden Sie ihn als Referenz, um nach den Daten zu suchen, die Sie extrahieren möchten.

Klicken Sie auf Create Element und wählen Sie das Element Static Text aus der Dropdown-Liste aus. Ändern Sie den Namen in “kwPatientTitle”.
Geben Sie den Text “Name, Vorname” in das Feld Text to find im Bereich Properties ein.
Klicken Sie auf Match. Wenn die Verarbeitung abgeschlossen ist, sehen Sie unter dem Dokument den Hypothesenbaum.
Vergewissern Sie sich, dass Advanced Designer den statischen Text erfolgreich gefunden hat — ein grüner Punkt neben dem Elementnamen weist auf eine erfolgreiche Übereinstimmung hin.
Klicken Sie im Hypothesenbaum auf den Elementnamen, damit ein violetter Rahmen um die entsprechende Region im Dokument angezeigt wird.

Wenn ein Element nicht gefunden wurde, sehen Sie einen orangefarbenen Punkt neben seinem Namen und einen orangefarbenen Rahmen um die Dokumentabbildung. Beachten Sie, dass die Qualität der Hypothese eines Elements den Status nachfolgender Elemente in der Kette und die Gesamtqualität einer Kette beeinflusst. Weitere Informationen finden Sie unter Optimierung des Hypothesen-Matchings.

Ermitteln Sie die untere Grenze mit einem Separator

Ermitteln Sie die untere Begrenzung der Zelle, die den Namen und die Adresse des Patienten enthält, mithilfe eines Separator-Elements.

Fügen Sie der Gruppe ein Separator-Element hinzu und nennen Sie es “SeparatorBottom”. Setzen Sie die Mindestlänge auf 200.
Klicken Sie mit der rechten Maustaste auf das Element und wählen Sie im Kontextmenü Match Element aus. Der Tree of Hypotheses enthält viele grüne Punkte — sie entsprechen verschiedenen Trennlinien, die den Suchkriterien entsprechen. Klicken Sie auf jeden Punkt, um das zugehörige Objekt auf dem Bild anzuzeigen.
Um die Suchkriterien einzugrenzen, legen Sie den Suchbereich für die Trennlinie fest:
1. Klicken Sie auf Match, um das Element “kwPatientTitle” zu finden, das als Ankerelement verwendet wird.
2. Klicken Sie im Abschnitt Where to search im Bereich Properties auf Draw on Image.
3. Wählen Sie im Dokument das Element “kwPatientTitle” aus. Klicken Sie auf das Symbol mit dem Abwärtspfeil, um den Suchbereich unterhalb des Schlüsselworts festzulegen, und auf das Symbol für den nächstgelegenen Separator, um nach der dem Schlüsselwort nächstgelegenen Trennlinie zu suchen.
Klicken Sie auf Match und prüfen Sie, ob Advanced Designer die Trennlinie unterhalb des Elements “kwPatientTitle” gefunden hat.

Absatz mit Name und Adresse finden

Eine Beschriftung und ein Trennzeichen sind zuverlässige Referenzelemente für die Daten des Patienten. Ist die Druckqualität jedoch zu gering, wird der Text der Beschriftung möglicherweise nicht erkannt oder das Trennzeichen nicht gefunden. Um gute Extraktionsergebnisse sicherzustellen, suchen Sie nach einem Absatz, der sich zwischen der Beschriftung und dem Trennzeichen befindet. Ein Absatz ist ein einheitlicher Textblock, sodass er auch dann erfolgreich gefunden werden kann, wenn einige der Begrenzungselemente nicht gefunden wurden.

Erstellen Sie ein Paragraph-Suchelement und nennen Sie es “NameAddressParagraph”.
Ändern Sie Text alignment in Left.
Die Daten des Patienten umfassen zwei bis fünf Zeilen. Geben Sie daher für Line count 2 bis 5 an.
Geben Sie den Suchbereich für den Absatz über das Menü Add im Abschnitt Where to search an. Das Element sollte sich unter dem Element “kwPatientTitle” und über dem Element “SeparatorBottom” befinden.
Klicken Sie auf Match.

PatientGroup erstellen

Erstellen Sie ein neues Gruppenelement mit dem Namen “PatientGroup”, das die Suchelemente enthält, die die Patientendaten extrahieren.

Die wiederholbare Gruppe NameGroup konfigurieren

Der Name des Patienten kann eine oder zwei Zeilen umfassen. Um mehrere Instanzen eines Elements zu erfassen, verwenden Sie eine wiederholbare Gruppe.

Erstellen Sie ein Suchelement vom Typ Wiederholbare Gruppe und nennen Sie es “NameGroup”. Geben Sie 2 als maximale Anzahl von Wiederholungen an. Legen Sie das Element als optional fest.
Um den Suchbereich auf die Zeilen zu beschränken, die zum Absatz “NameAddressParagraph” gehören, klicken Sie auf das Symbol des Code-Editors unter dem Dokumentbild und fügen Sie das folgende Skript im Abschnitt Suchbedingungen des Code Editor ein:
RSA:PatientDataArea.NameAddressParagraph.Rect;
Erstellen Sie innerhalb der wiederholbaren Gruppe ein Element vom Typ Zeichenfolge, das eine Zeichenzeile erfassen soll. Nennen Sie es “NameLine”.
Der gesuchte Text kann Groß- und Kleinbuchstaben sowie verschiedene Satzzeichen enthalten. Konfigurieren Sie zwei separate Zeichensätze:
- Der erste Satz enthält alle lateinischen Groß- und Kleinbuchstaben. Um Zeichen mit diakritischen Zeichen hinzuzufügen, ändern Sie den Unicode-Unterbereich oder fügen Sie die Zeichen direkt in das Feld Ausgewählte Zeichen ein.
- Der zweite Satz enthält die Satzzeichen: ,-.()’. Damit die Zeichenfolge nicht nur aus Satzzeichen besteht, setzen Sie Anteil im Text, % für den zweiten Satz auf 40 %.
Deaktivieren Sie die Option Nach Wortteilen suchen.
Geben Sie den Suchbereich für das Element “NameLine” an: unterhalb des Elements “kwPatientTitle” und möglichst nah daran.
Klicken Sie auf Abgleichen und prüfen Sie den Hypothesenbaum. Es werden zwei Zeichenfolgen gefunden, aber die zweite enthält die Adresse des Patienten.
Um die Adresse aus den Suchergebnissen auszuschließen, fügen Sie eine skriptbasierte Suchbedingung hinzu:
1. Wählen Sie das Suchelement “NameLine” aus und öffnen Sie den Code-Editor für Suchbedingungen.
2. Fügen Sie das folgende Skript ein — es geht davon aus, dass die erste Zeile einen vollständigen Namen enthält, wenn sie ein Komma und ein Leerzeichen enthält. Wenn ein vollständiger Name gefunden wird, beendet die wiederholbare Gruppe die Suche nach einer zweiten Instanz:
  if (NameGroup.HasInstances and LastFound.NameLine.Value.Find(", ") > 0) then DontFind;
Klicken Sie auf Abgleichen und stellen Sie sicher, dass der Name korrekt gefunden wird.

In den Standardeinstellungen darf die Zeichenfolge bis zu 30 % Zeichen enthalten, die in keinem Satz enthalten sind. Dadurch lassen sich Zeichenfolgen auch dann finden, wenn einige Zeichen falsch erkannt wurden oder nicht im Satz enthalten sind (z. B. Zeichen mit diakritischen Zeichen). Sie können diese Einstellung anpassen, indem Sie den Wert Zulässige Fehler im Eigenschaften-Bereich ändern.

Erstellen Sie das Element „NameRegion“ vom Typ Region

Sie können ein Feld keinem Element mit wiederholten Instanzen zuordnen. Erstellen Sie daher ein Hilfselement vom Typ Region, das alle Regionen der Instanzen von “NameGroup” enthält.

Erstellen Sie in der Gruppe “PatientGroup” ein Region-Suchelement und benennen Sie es in “NameRegion” um.
Öffnen Sie den Code Editor und fügen Sie das folgende Skript im Abschnitt Search Conditions ein:
RSA: NameGroup.AllInstances.NameLine.Rects;

Erstellen Sie das Region-Element AddressRegion

Der Name des Patienten wurde nun gefunden, und der Rest des Absatzes “NameAddressParagraph” ist die Adresse. Um die Region anzugeben, die die Adresse enthält, schließen Sie die Rectangles von “NameGroup” aus der Region “NameAddressParagraph” aus.Erstellen Sie ein weiteres Element vom Typ Region in der Gruppe “PatientGroup”, benennen Sie es in “AddressRegion” um und fügen Sie das folgende Skript im Abschnitt Search Conditions des Code Editor ein:

RSA: PatientDataArea.NameAddressParagraph.Rects;
Exclude: NameGroup.AllInstances.NameLine.Rects;

Die Struktur des Suchelements sollte wie folgt aussehen:

Hierarchie der Suchelemente für deutsche Patientendaten: PatientDataArea-Gruppe mit kwPatientTitle, SeparatorBottom, NameAddressParagraph und PatientGroup mit NameGroup, NameRegion und AddressRegion

Patientenfelder erstellen und zuordnen

Öffnen Sie das Dialogfeld Manage Fields, erstellen Sie die entsprechenden Felder und ordnen Sie sie den Suchelementen wie folgt zu:

Name	Typ	Suchelement
Vollständiger Name	Textfeld in der Gruppe “Patient”	NameRegion
Address	Textfeld in der Gruppe “Patient”	AddressRegion

Löschen Sie die Suchelemente, die automatisch für die neuen Felder erstellt wurden.

Art der Krankschreibung extrahieren

Das Feld für die Art der Krankschreibung hat zwei Kontrollkästchen. Sie sind mit „Erstbescheinigung“ und „Folgebescheinigung“ beschriftet. Die Aufgabe besteht darin, diese Beschriftungen zu finden und anschließend zu prüfen, ob daneben gesetzte Häkchen vorhanden sind.

Die TypeOfSickNoteGroup und PrimaryGroup erstellen

Erstellen Sie eine Gruppe “TypeOfSickNoteGroup”. Erstellen Sie darin eine Gruppe “PrimaryGroup”. Machen Sie beide Gruppen optional.

Die PrimaryGroup konfigurieren

Erstellen Sie innerhalb der Gruppe “PrimaryGroup” ein Element vom Typ Static Text mit dem Namen “kwCheckmark” (zu suchender Text: “Erstbescheinigung”).
Dieses Element steht nicht mit den zuvor gesuchten Elementen in Zusammenhang. Führen Sie statt eines Matchings des gesamten Elementbaums ein Matching nur für das neue Element durch, indem Sie im Kontextmenü des Elements “kwCheckmark” auf Match Element klicken. Stellen Sie sicher, dass das Schlüsselwort erfolgreich gefunden wurde.
Suchen Sie nun das Häkchen mithilfe eines Elements vom Typ Object Collection, das verwendet wird, um verschiedene grafische Objekte wie Häkchen, Barcodes und Bilder zu finden.
- Fügen Sie ein Object Collection-Element mit dem Namen “Checkmark” hinzu.
- Deaktivieren Sie in der Dropdown-Liste Type im Bereich Properties alle Optionen außer Checkmark.
- Legen Sie die Mindestbreite und -höhe des Objekts auf 30 sowie die maximale Breite und Höhe auf 130 fest.
- Geben Sie den Suchbereich für das Häkchen links vom Element “kwCheckmark” an.
- Das Häkchen sollte sich ungefähr in derselben Zeile wie das Schlüsselwort befinden. Geben Sie an, wo die obere und untere Begrenzung des Elements in Bezug auf das Schlüsselwort liegen sollen, indem Sie den folgenden Code in den Abschnitt Search Conditions des Code Editor einfügen:
  RSA: TopBound > kwCheckmark.Top - 50dot; RSA: BottomBound < kwCheckmark.Bottom + 50dot;
- Klicken Sie auf Match.

Die SecondaryGroup erstellen und konfigurieren

Kopieren Sie die Gruppe “PrimaryGroup” und benennen Sie die Kopie in “SecondaryGroup” um.
Beim Kopieren einer Gruppe kopieren Sie auch alle ihre Elemente mit ihren Eigenschaften. Wählen Sie das Element “kwCheckmark” in der Gruppe “SecondaryGroup” aus und ändern Sie den zu suchenden Text in “Folgebescheinigung”.
Das Object Collection-Suchelement findet eine Sammlung aller passenden Objekte innerhalb des Suchbereichs. Wenn sich die Häkchen in derselben Zeile befinden, kann das Element “Checkmark” der “SecondaryGroup” auch das primäre Häkchen finden. Um dies zu vermeiden, schließen Sie das primäre Häkchen (das Element “Checkmark” der “PrimaryGroup”) aus dem Suchbereich für das Element “Checkmark” aus der “SecondaryGroup” aus.
Klicken Sie auf Match.

Die Struktur des Suchelements sollte wie folgt aussehen:

Hierarchie der Suchelemente für die deutsche Art der Krankschreibung: TypeOfSickNoteGroup mit PrimaryGroup und SecondaryGroup, jeweils mit einem kwCheckmark-Schlüsselwort und Checkmark-Elementen

Die Felder für die Art der Krankschreibung erstellen und zuordnen

Öffnen Sie das Fenster Manage Fields, erstellen Sie die entsprechenden Felder und ordnen Sie sie den Suchelementen wie folgt zu:

Name	Typ	Suchelement
Art der Krankschreibung	Häkchengruppe
Primär	Häkchen in der Häkchengruppe „Art der Krankschreibung“	PrimaryGroup -> Checkmark
Sekundär	Häkchen in der Häkchengruppe „Art der Krankschreibung“	SecondaryGroup -> Checkmark

Löschen Sie die Suchelemente, die für die neuen Felder automatisch erstellt wurden.

Extrahieren der Arztdaten

Der letzte Datenblock auf diesen Dokumenten enthält die Arztdaten und die Unterschrift. Suchen Sie zuerst das Feld, das die Daten enthält, und extrahieren Sie dann einen Absatz mit den Arztinformationen sowie einen Bildbereich mit der Unterschrift.

Erstellen Sie DoctorAreaGroup und DataArea

Erstellen Sie ein Group-Element mit dem Namen “DoctorAreaGroup” und machen Sie das Element optional.
Um die Beschriftung des Kastens zu finden, erstellen Sie ein Static Text-Element namens “kwDoctorTitle” (zu suchender Text: “Unterschrift des Arztes”).
Erstellen Sie innerhalb der Gruppe “DoctorAreaGroup” eine weitere Gruppe mit dem Namen “DataArea”.

Fügen Sie die vier begrenzenden Trennlinien hinzu

Der Kasten, der die Arztinformationen und die Unterschrift enthält, wird durch eine Kombination aus vier Trennlinien begrenzt. Sie befinden sich rund um das Element “kwDoctorTitle”. Wir sollten die Elemente jedoch so konfigurieren, dass Advanced Designer sie auch dann finden kann, wenn das Element “kwDoctorTitle” nicht gefunden wurde.Erstellen Sie in der Gruppe “DataArea” vier Separator-Suchelemente mit den folgenden Eigenschaften:

Name	Ausrichtung	Mindestlänge	Suchbereich
SeparatorRight	Vertikal	180	Rechts von “kwDoctorTitle”, dem rechten Seitenrand am nächsten
SeparatorLeft	Vertikal	180	Links von “kwDoctorTitle”, links von “SeparatorRight” (falls “kwDoctorTitle” nicht gefunden wurde), “SeparatorRight” am nächsten, unterhalb von “SeparatorRight” (klicken Sie auf das Symbol rechts neben dem Trennliniennamen und wählen Sie Top Boundary of Region), “SeparatorRight” ausschließen
SeparatorBottom	Horizontal	200	Unterhalb von “kwDoctorTitle” (mit einer Anpassung von -10 Punkten), rechts von “SeparatorLeft”, links von “SeparatorRight”, dem unteren Seitenrand am nächsten (diese Einstellung ist nützlich, falls “kwDoctorTitle” nicht gefunden wurde)
SeparatorTop	Horizontal	200	Oberhalb von “kwDoctorTitle”, rechts von “SeparatorLeft”, “TypeOfSickNoteGroup” am nächsten, “SeparatorBottom” ausschließen

Deaktivieren Sie die Option Fits entirely within search area für alle vier Elemente.

BoxRegion erstellen

Erstellen Sie ein Region-Suchelement mit dem Namen “BoxRegion” und geben Sie den Suchbereich an: links von “SeparatorRight”, rechts von “SeparatorLeft”, oberhalb von “SeparatorBottom” und unterhalb von “SeparatorTop”.Diese Region entspricht dem durch die vier Trennlinien begrenzten Bereich — durch ihre Verwendung müssen die Suchbereiche für die Unterschrift und die Arztinformationen nicht manuell angegeben werden.

Erstellen Sie die Gruppe DoctorGroup

Erstellen Sie innerhalb von “DoctorAreaGroup” eine neue Gruppe mit dem Namen “DoctorGroup” für die Elemente Unterschrift und Informationen.

Hinzufügen der Object Collection „Signature“

Um die Arztunterschrift zu finden, erstellen Sie innerhalb der “DoctorGroup” ein Object Collection-Element mit den folgenden Einstellungen:

Eigenschaft	Wert
Name	Signature
Type	Picture
Minimum width	15
Minimum height	15
Maximum width	600
Maximum height	350
Abschnitt Search Conditions im Code Editor	Die Unterschrift kann teilweise außerhalb des Kastens liegen. Um das gesamte Bild zu finden, erweitern Sie den Suchbereich in jede Richtung um 100 Punkte: `RSA: DoctorAreaGroup.DataArea.BoxRegion.Rect.GetInflated(100dot,100dot);`

Fügen Sie den Absatz „DoctorInformation“ hinzu

Um die Textinformationen im Kasten zu extrahieren, erstellen Sie ein Paragraph-Element mit den folgenden Einstellungen:

Eigenschaft	Wert
Name	DoctorInformation
Maximum line count	6
Suchbereich	Oberhalb von “kwDoctorTitle”, “Signature” ausschließen
Abschnitt Search Conditions im Code Editor	`RSA: DoctorAreaGroup.DataArea.BoxRegion.Rect;`

Prüfen Sie, ob die Elemente gefunden werden

Klicken Sie auf Match und stellen Sie sicher, dass die Elemente korrekt gefunden werden.So sollte die Struktur der Suchelemente aussehen:

Suchelementhierarchie für deutsche Arztdaten: DoctorAreaGroup mit kwDoctorTitle und DataArea (mit vier begrenzenden Trennlinien und BoxRegion) sowie DoctorGroup mit Signature und DoctorInformation

Erstellen und Zuordnen der Arztfelder

Öffnen Sie den Dialog Manage Fields, erstellen Sie die entsprechenden Felder und ordnen Sie sie den Suchelementen wie folgt zu:

Name	Typ	Suchelement
Doctor Information	Text-Feld in der Gruppe “Doctor”	DoctorInformation
Signature	Bildfeld in der Gruppe “Doctor”	Signature

Löschen Sie die Suchelemente, die automatisch für die neuen Felder erstellt wurden.

Testen der Aktivität

Alle notwendigen Suchelemente und Felder sind jetzt konfiguriert. Wählen Sie alle Dokumente aus, klicken Sie auf Match, und wechseln Sie zur Registerkarte Felder, um die Feldbereiche auf den Dokumentbildern zu überprüfen. Beachten Sie, dass ein Bereich nur dann einem Feld zugeordnet wird, wenn er zur Hypothese des besten Pfads gehört. Sobald Sie mit den Ergebnissen zufrieden sind, klicken Sie auf das Kopiersymbol oberhalb des Dokumentbilds, um die vorhergesagten Labels in die Referenz-Labels zu kopieren.

Wie geht es weiter

Schritt 8. Die Aktivität „Sick Note BE-NL“ konfigurieren

Konfigurieren Sie die Aktivität „Extraction Rules“ für niederländische und belgische Krankschreibungen.

Tutorial-Überblick

Zurück zur Tutorial-Einführung.

​Bevor Sie beginnen

​Extrahieren Sie die Patientendaten

​Art der Krankschreibung extrahieren

​Extrahieren der Arztdaten

​Testen der Aktivität

​Wie geht es weiter

Schritt 8. Die Aktivität „Sick Note BE-NL“ konfigurieren

Tutorial-Überblick

Bevor Sie beginnen

Extrahieren Sie die Patientendaten

Art der Krankschreibung extrahieren

Extrahieren der Arztdaten

Testen der Aktivität

Wie geht es weiter