メインコンテンツへスキップ
「Sick Note DE」アクティビティの設定が完了したので、もう一方の病欠証明クラス向けに 2 つ目の抽出ルール セットを作成します。 オランダおよびベルギーの病欠証明の構造は、ドイツの文書とは大きく異なります。クラス内に多くのバリエーションがあるため、今回はどの field も抽出するために Fast Learning アクティビティを使用できません。これらの文書にはドイツの病欠証明にはない追加情報が含まれているため、アクティビティの設定時に新しい field も追加します。 まず、すべての文書で共通して利用できるデータを抽出し、その後データ フォームに新しい field を追加します。 Activity Editor を閉じずに別のアクティビティに切り替えることができます。Skill 名の横にある現在のアクティビティ名をクリックし、ドロップダウン リストで「Sick Note BE-NL」を選択します。セット内の最初の文書を選択します。

発行日の抽出

これらのドキュメントでは日付は Date 要素で簡単に抽出できるため、今回はこの field 用に自動作成された検索要素を使用します。
  1. Fields タブで Manage Fields ダイアログを開き、このアクティビティで使用する “Date” field を選択します。Save をクリックします。
  2. Search Elements タブに移動します。“Date” field 用に作成された Date タイプの検索要素が表示されます。これは自動的に field にマッピングされています。
  3. “IssueDateGroup” という名前の Group 検索要素を作成します。要素は任意にします。
  4. 実際の日付を特定するのに役立つラベルを見つけるために、“kwDate” という名前の Static Text 要素を追加します。
  5. この Document クラスにはオランダ語またはフランス語の documents が含まれているため、ラベルテキストにはいくつかの候補があります。各候補は Text to find ダイアログで改行して入力できます。1 行目に “Date”、2 行目に “Datum” を入力します。
  6. Search for parts of words オプションを無効にします。
  7. “Date” 検索要素をグループにドラッグ&ドロップし、“kwDate” 要素の下に配置します。
  8. “Date” 要素の検索領域を指定します。a. 要素作成時に自動的に追加された Nearest to リレーションを削除します。b. 検索対象の要素に最も近いものとして “kwDate” 要素を選択します。c. 日付はキーワードの右側または下に配置される場合があります。“kwDate” 要素の下に検索領域を指定します。d. 検索領域にはキーワードがある行も含める必要があります。要素名の右側にある下境界アイコンをクリックし、Top Boundary of Region を選択します。行が不揃いな場合があるため、検索領域を行より少し上まで広げるよう Below の値を -10 に設定します。
  9. Match をクリックして、日付の位置が正しく検出されていることを確認します。
検索要素の構造は次のようになります。 AD_Tutorial_BE_IssueDate_Structure

病欠日付の抽出

これらの日付はKey value要素を使って抽出します。Key value要素は、固定のテキストラベルと値の両方を検索できます。ただし、値の位置や特性のばらつきにはあまり対応できません。 これらのdocumentでは、病欠日付は各日付要素がテーブルの別々のセルに分かれて配置されています。テーブルセルは各document内で標準的でない位置にある場合がありますが、セル同士の相対位置は常に同じです。テーブルセルの境界が明確でない場合もありますが、Table Cell要素はあいまいな境界に対応でき、今後さらに多くのdocumentでアクティビティを学習させる場合にも便利なため使用します。そのため、検索要素の階層を整理するためにGroup要素を使用します。 注: Table Cell要素は、documentのテーブル内にあるfieldに対してだけでなく使用できます。内容が似たボックスや表形式の構造に配置されているフォームからデータを抽出する必要がある場合にも有用です。これらのボックスに明確な区切り線がある場合、Table Cell要素は非常に効果的です。
  1. Manage Fieldsダイアログを開き、現在のアクティビティに次のfieldを追加します:
    • Start Date
    • End Date
    Saveをクリックします。
  2. Search Elementsタブに移動し、開始日の抽出用にGroup要素を作成します。グループに含める各要素に対して次のパラメータを設定します:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
注: Table Cell要素は、セル内のテキストをそのまま返します。このケースでは検索パターンにNumberが含まれており、数字のみを認識するため、要素が返すテキストは数値になります。
  1. “StartDateGroup”要素のコピーを作成し、“EndDateGroup”に名前を変更します。
  2. グループのサブ要素の名前を変更します: “kwStartDate” を “kwEndDate” に、“StartDateDay” を “EndDateDay” に、“StartDateMonth” を “EndDateMonth” に、“StartDateYear” を “EndDateYear” に。
  3. “kwEndDate”要素の検索テキストを “Tot en met / Till and incl., Jusqu’ au, Tot en met” に変更します。
  4. “EndDateDay”要素の検索範囲を指定します。“kwEndDate”要素の下に配置し、最も近い位置に設定します。他の関係は削除します。
  5. Manage Fieldsダイアログを開き、“Start Date Composed”というData Composition Fieldを追加します。次の要素をfieldsにマッピングします:
    • “StartDateDay” を Day
    • “StartDateMonth” を Month
    • “StartDateYear” を Year
    Saveをクリックします。
  6. “End Date Composed”というData Composition Fieldを作成します。次の要素をfieldsにマッピングします:
    • “EndDateDay” を Day
    • “EndDateMonth” を Month
    • “EndDateYear” を Year
    Saveをクリックします。
  7. “Start Date Composed” と “End Date Composed” のデータ合成fieldsを “Start Date” と “End Date” のfieldにマッピングします。
検索要素の構造は次のようになります: AD_Tutorial_BE_Dates_Structure

病欠証明の種類の抽出

ドイツ語の文書と同様に、チェックマークを使って病欠証明の種類を抽出します。
  1. Fields タブで Manage Fields ダイアログを開き、“Type of Sick Note” のチェックマークグループを有効にします。現在のアクティビティで使用するため、グループ内の “Primary” と “Secondary” のチェックマークを有効にします。Save をクリックします。
  2. ドイツ語の文書で構築したのと同様の構造を作成しますが、オランダおよびベルギーの文書ではラベル(チェックマークの近くのテキスト)が先に来ることに注意してください。このようなグループでは子要素の順序が重要です。 a. “TypeOfSickNoteGroup” という名前の Group 要素を作成します。 b. このグループのコピーを作成して “PrimaryGroup” に名前を変更し、“TypeOfSickNoteGroup” の内部に配置します。 c. “PrimaryGroup” グループに “kwCheckmark” という名前の Static Text 要素を追加します。 d. 検索するテキストを “eerste / Primary, première, primair” に設定します。
Note: これらの文書では、チェックマークの近くのテキストはチェックマークの左側にあるため、検索範囲は右ではなく左側に設定します。 以下の表に従って、残りの要素を構成します。
ParameterValue
Static Text 検索要素:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text 検索要素:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region 検索要素:
NameCheckmarkRegion
Search Conditions セクション(Code Editor)if Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. “PrimaryGroup” のコピーを作成して “SecondaryGroup” に名前を変更します。その “kwCheckmark” 要素の検索テキストを “prolongation”, “verlenging” に変更します。 f. ドイツの病欠証明は 2 種類に分かれていました。これに対し、オランダおよびベルギーの病欠証明は 3 種類(追加の種類として「relapse」)に分かれています。したがって “PrimaryGroup” グループの別のコピーを作成し、“RelapseGroup” に名前を変更します。 g. その “kwCheckmark” 要素の検索テキストを “Herval” に変更し、文中の途中に出現する語を除外するため Match case オプションを有効にします。 検索要素の構造は次のとおりです。 AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Manage Fields ウィンドウを開き、“Type of Sick Note” のチェックマークグループに “Relapse” のチェックマークを追加します。現在のアクティビティで使用するため、グループ内のすべてのチェックマークを有効にし、Save をクリックします。
  2. チェックマークを対応する Region 要素にマッピングし、fields を有効化した際に自動作成された要素を削除します。

アクティビティのテスト

必要な検索要素とfieldはすべて設定しました。すべてのdocumentsを選択し、Match をクリックして Fields タブに切り替え、ドキュメント画像上のfieldの領域を確認します。最良パスの仮説に属している場合にのみ、その領域はfieldに渡されることに注意してください。 結果に問題がなければ、ドキュメント画像上部のコピーiconをクリックして、予測ラベリングを基準ラベリングにコピーします。