メインコンテンツへスキップ
「Sick Note DE」アクティビティの設定が完了したので、もう一方の病欠証明クラス向けに 2 つ目の抽出ルールセットを作成する準備ができました。 オランダおよびベルギーの病欠証明の構造は、ドイツの documents とはかなり異なります。このクラス内には多くのバリエーションがあるため、今回はどのフィールドの抽出にも Fast Learning アクティビティを使用できません。これらの documents にはドイツの病欠証明にはない追加情報が含まれているため、アクティビティの設定時にいくつか新しいフィールドも追加します。 まず、すべての documents で利用できるデータを抽出し、その後でデータフォームに新しいフィールドを追加します。 Activity Editor を閉じずに別のアクティビティに切り替えることができます。スキル名の横にある現在のアクティビティ名をクリックし、ドロップダウンリストで「Sick Note BE-NL」を選択します。セット内の最初の文書を選択します。

発行日の抽出

これらの documents の日付は Date 要素を使用して簡単に抽出できるため、今回はこのフィールド用に自動的に作成された検索要素を使用します。
  1. Fields タブで Manage Fields ダイアログを開き、このアクティビティで使用する「Date」フィールドを選択します。Save をクリックします。
  2. Search Elements タブに移動します。「Date」フィールド用に作成された Date タイプの検索要素が表示されます。これは自動的にフィールドにマッピングされています。
  3. 「IssueDateGroup」という名前の Group 検索要素を作成します。要素はオプションにします。
  4. 実際の日付を見つける手がかりとなるラベルを見つけるため、「kwDate」という名前の Static Text 要素を追加します。
  5. この document クラスにはオランダ語またはフランス語の documents が含まれているため、ラベルテキストには複数の候補があります。各候補は Text to find ダイアログで新しい行に入力できます。1 行目に「Date」、2 行目に「Datum」と入力します。
  6. Search for parts of words オプションを無効にします。
  7. 「Date」検索要素をグループ内にドラッグ & ドロップし、「kwDate」要素の下に配置します。
  8. 「Date」要素の検索範囲を指定します。
    a. 要素の作成時に自動的に追加された Nearest to 関係を削除します。 b. 検索している要素に最も近い要素として「kwDate」要素を選択します。
    c. 日付はキーワードの右側または下にある場合があります。「kwDate」要素の下に検索範囲を指定します。
    d. 検索範囲にはキーワードがある行も含める必要があります。要素名の右側にある下境界アイコンをクリックし、Top Boundary of Region を選択します。行が不揃いな場合があるため、検索範囲をその行より少し上まで広げるよう Below の値を -10 に設定します。
  9. Match をクリックして、日付が正しく見つかっていることを確認します。
検索要素の構造は次のようにします。 AD_Tutorial_BE_IssueDate_Structure

病欠日付の抽出

これらの日付は Key value 要素を使用して抽出します。Key value 要素では、固定テキストのラベルと値の両方を検索できます。ただし、値の位置や特性のばらつきにはあまり対応できません。 これらの documents では、病欠日付は各日付コンポーネントが表の別々のセルに入るように書式設定されています。表のセルは各 document で標準的でない位置に配置されていることがありますが、セル同士の相対位置は常に同じです。表セルの境界が非常に明確であるとは限りませんが、Table Cell 要素はあいまいな境界に対応でき、さらに多くの documents でアクティビティをトレーニングすることにした場合にも便利なので、ここでもこれを使用します。そのため、検索要素の階層を整理するために Group 要素を使用します。
Table Cell 要素は、document の表の中にあるフィールドに対してだけ使用するものではありません。内容が似たボックスや表のような構造に配置されているフォームからデータを抽出する必要がある場合にも役立ちます。これらのボックスに明確な区切り線がある場合、Table Cell 要素は非常に効果的です。
  1. Manage Fields ダイアログを開き、現在のアクティビティに次のフィールドを追加します:
    • Start Date
    • End Date
    Save をクリックします。
  2. Search Elements タブに移動し、開始日の抽出用の Group 要素を作成します。グループに含まれる要素に対して次のパラメータを設定します:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
Table Cell 要素は、セル内のテキストをそのまま返します。この場合、検索パターンには Number が含まれており、数字だけを認識するため、要素が返すテキストは数値になります。
  1. 「StartDateGroup」要素のコピーを作成し、「EndDateGroup」に名前を変更します。
  2. グループのサブ要素の名前を次のように変更します: 「kwStartDate」を「kwEndDate」に、「StartDateDay」を「EndDateDay」に、「StartDateMonth」を「EndDateMonth」に、「StartDateYear」を「EndDateYear」に変更します。
  3. 「kwEndDate」要素の検索テキストを「Tot en met / Till and incl., Jusqu’ au, Tot en met」に変更します。
  4. 「EndDateDay」要素の検索範囲を指定します。「kwEndDate」要素の下で、それに最も近い位置にあるようにします。ほかの関係は削除します。
  5. Manage Fields ダイアログを開き、「Start Date Composed」という Data Composition Field を追加します。次の要素をフィールドにマッピングします:
    • 「StartDateDay」を Day
    • 「StartDateMonth」を Month
    • 「StartDateYear」を Year
    Save をクリックします。
  6. 「End Date Composed」という Data Composition Field を作成します。次の要素をフィールドにマッピングします:
    • 「EndDateDay」を Day
    • 「EndDateMonth」を Month
    • 「EndDateYear」を Year
    Save をクリックします。
  7. 「Start Date Composed」と「End Date Composed」のデータ合成フィールドを「Start Date」フィールドと「End Date」フィールドにマッピングします。
検索要素の構造は次のようにします。 AD_Tutorial_BE_Dates_Structure

病欠証明の種類の抽出

ドイツの documents の場合とまったく同じように、チェックマークを使用して病欠証明の種類を抽出します。
  1. Fields タブで Manage Fields ダイアログを開き、「Type of Sick Note」チェックマークグループを有効にします。現在のアクティビティで使用する「Primary」と「Secondary」のチェックマークをグループ内で有効にします。Save をクリックします。
  2. ドイツの documents 用に作成したものと同様の構造を作成しますが、オランダおよびベルギーの documents ではラベル(チェックマークの近くにあるテキスト)が先に来ることに注意してください。このようなグループでは子要素の順序が重要です。 a. 「TypeOfSickNoteGroup」という名前の Group 要素を作成します。 b. このグループのコピーを作成し、「PrimaryGroup」に名前を変更します。それを「TypeOfSickNoteGroup」の中に配置します。 c. 「PrimaryGroup」グループに「kwCheckmark」という名前の Static Text 要素を追加します。 d. 検索するテキストを「eerste / Primary, première, primair」に設定します。
これらの documents では、チェックマークの近くのテキストはチェックマークの左側にあるため、検索範囲は右側ではなく左側に設定します。
以下の表に従って、残りの要素を設定します。
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. 「PrimaryGroup」のコピーを作成し、「SecondaryGroup」に名前を変更します。その「kwCheckmark」要素の検索テキストを「prolongation」、「verlenging」に変更します。 f. ドイツの病欠証明は 2 種類に分かれていました。それに対して、オランダおよびベルギーの病欠証明は 3 種類(追加の種類として「relapse」)に分かれています。したがって、「PrimaryGroup」グループの別のコピーを作成し、「RelapseGroup」に名前を変更します。 g. その「kwCheckmark」要素の検索テキストを「Herval」に変更し、文の途中に現れる語を除外するため Match case オプションを有効にします。 検索要素の構造は次のようにします。 AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Manage Fields ウィンドウを開き、「Type of Sick Note」チェックマークグループに「Relapse」チェックマークを追加します。現在のアクティビティで使用するため、グループ内のすべてのチェックマークを有効にして Save をクリックします。
  2. チェックマークを対応する Region 要素にマッピングし、フィールドを有効にした際に自動的に作成された要素を削除します。

アクティビティのテスト

必要な検索要素とfieldはすべて設定しました。すべてのdocumentsを選択し、Match をクリックして Fields タブに切り替え、ドキュメント画像上のfieldの領域を確認します。最良パスの仮説に属している場合にのみ、その領域はfieldに渡されることに注意してください。 結果に問題がなければ、ドキュメント画像上部のコピーiconをクリックして、予測ラベリングを基準ラベリングにコピーします。