メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

ドイツ向けアクティビティの設定が完了したら、オランダ語とベルギーの病欠証明書向けに 2 つ目の Extraction Rules アクティビティを設定します。 オランダ語とベルギーの病欠証明書は、ドイツの文書とは構造が異なり、同じ class 内でも形式のばらつきが大きいため、ここでは Fast Learning は適していません。さらに、これらの文書に固有の fields もあるため、アクティビティの設定に合わせてデータ フォームに追加していきます。 まずはすべての文書に共通して現れる fields から始め、その後、新しいフィールドに対応するためにフォームを拡張します。
skill 名の横にある現在のアクティビティ名をクリックし、ドロップダウンから “Sick Note BE-NL” を選択すると、Activity Editor を閉じずにアクティビティを切り替えられます。次に、セット内の最初の文書を選択します。

発行日の抽出

これらの文書の日付は Date 要素を使って簡単に抽出できるため、今回はこの field 用に自動作成された search element を使用します。
1

Date field を追加する

  1. Fields タブで Manage Fields ダイアログを開き、このアクティビティで使用する “Date” field を選択します。Save をクリックします。
  2. Search Elements タブに移動します。“Date” field 用の Date 型 search element が自動的に作成され、マッピングされています。
2

kwDate ラベルを含む IssueDateGroup を作成する

  1. “IssueDateGroup” という名前の Group search element を作成し、オプションに設定します。
  2. グループ内に “kwDate” という名前の Static Text 要素を追加します。これにより、実際の日付の位置を特定する手がかりとなるラベルを見つけます。
  3. この document class にはオランダ語またはフランス語の文書が含まれるため、Text to find ダイアログでラベルテキストの候補を別々の行に入力します。1 行目に “Date”、2 行目に “Datum” を入力します。
  4. Search for parts of words オプションを無効にします。
3

グループに Date 要素を追加する

“Date” search element をグループにドラッグアンドドロップし、“kwDate” 要素の下に配置します。
4

Date 要素の search area を設定する

  1. 要素の作成時に自動的に追加された Nearest to 関係を削除します。
  2. 検索対象の要素に最も近い要素として “kwDate” 要素を選択します。
  3. 日付はキーワードの右側または下側に配置されることがあります。“kwDate” 要素の下の search area を指定します。
  4. search area には、キーワードがある行も含める必要があります。要素名の右側にある下側境界アイコンをクリックし、Top Boundary of Region を選択します。行の高さがそろっていない場合があるため、search area が行の少し上まで広がるように Below の値を -10 に設定します。
5

日付が見つかることを確認する

Match をクリックして、日付が正しく特定されることを確認します。search element の構造は次のようになります。
ベルギー・オランダ語の発行日に対する search element の階層: kwDate キーワードと Date 要素を含む IssueDateGroup

病欠日付の抽出

これらの日付は Key value 要素を使用して抽出します。Key value 要素では、固定テキストのラベルと値の両方を検索できます。ただし、値の位置や特性のばらつきにはあまり対応できません。 これらの documents では、病欠日付は各日付コンポーネントが表の別々のセルに入るように書式設定されています。表のセルは各 document で標準的でない位置に配置されていることがありますが、セル同士の相対位置は常に同じです。表セルの境界が非常に明確であるとは限りませんが、Table Cell 要素はあいまいな境界に対応でき、さらに多くの documents でアクティビティをトレーニングすることにした場合にも便利なので、ここでもこれを使用します。そのため、検索要素の階層を整理するために Group 要素を使用します。
Table Cell 要素は、document の表の中にあるフィールドに対してだけ使用するものではありません。内容が似たボックスや表のような構造に配置されているフォームからデータを抽出する必要がある場合にも役立ちます。これらのボックスに明確な区切り線がある場合、Table Cell 要素は非常に効果的です。
1

Start Date fields と End Date fields を追加する

Manage Fields ダイアログを開き、現在のアクティビティに次の fields を追加します:
  • Start Date
  • End Date
Save をクリックします。
2

Table Cell 要素を使用して StartDateGroup を作成する

Search Elements タブに移動し、開始日の抽出用の Group 要素を作成します。グループに含まれる要素に対して次のパラメータを設定します:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, nearest to “kwStartDate”
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay”
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search areaBelow the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth”
Table Cell 要素は、セル内のテキストをそのまま返します。この場合、検索パターンには Number が含まれており、数字だけを認識するため、要素が返すテキストは数値になります。
3

コピーとして EndDateGroup を作成する

  1. 「StartDateGroup」要素のコピーを作成し、「EndDateGroup」に名前を変更します。
  2. グループのサブ要素の名前を次のように変更します: 「kwStartDate」を「kwEndDate」に、「StartDateDay」を「EndDateDay」に、「StartDateMonth」を「EndDateMonth」に、「StartDateYear」を「EndDateYear」に変更します。
  3. 「kwEndDate」要素の検索テキストを「Tot en met / Till and incl., Jusqu’ au, Tot en met」に変更します。
  4. 「EndDateDay」要素の検索範囲を指定します。「kwEndDate」要素の下で、それに最も近い位置にあるようにします。ほかの関係は削除します。
4

日付用の Data Composition fields を追加する

  1. Manage Fields ダイアログを開き、「Start Date Composed」という Data Composition フィールド を追加します。次の要素を fields にマッピングします:
    • 「StartDateDay」を Day
    • 「StartDateMonth」を Month
    • 「StartDateYear」を Year
    Save をクリックします。
  2. 「End Date Composed」という Data Composition フィールド を作成します。次の要素を fields にマッピングします:
    • 「EndDateDay」を Day
    • 「EndDateMonth」を Month
    • 「EndDateYear」を Year
    Save をクリックします。
  3. 「Start Date Composed」と「End Date Composed」のデータ合成 fields を「Start Date」フィールドと「End Date」フィールドにマッピングします。
検索要素の構造は次のようになります:
ベルギー・オランダ語の病欠日付の検索要素階層: StartDateGroup と EndDateGroup があり、それぞれにキーワードの Static Text と、日、月、年用の 3 つの Table Cell 要素が含まれます

病欠証明書の種類の抽出

ドイツの documents の場合とまったく同じように、チェックマークを使用して病欠証明書の種類を抽出します。
1

Primary と Secondary のチェックマークを有効にする

Fields タブで Manage Fields ダイアログを開き、「Type of 病欠証明書」チェックマークグループを有効にします。現在のアクティビティで使用する「Primary」と「Secondary」のチェックマークをグループ内で有効にします。Save をクリックします。
2

TypeOfSickNoteGroup と PrimaryGroup のラベルを作成する

ドイツの documents 用に作成したものと同様の構造を作成しますが、オランダおよびベルギーの documents ではラベルがに来ることに注意してください。このようなグループでは子要素の順序が重要です。
  1. 「TypeOfSickNoteGroup」という名前の Group 要素を作成します。
  2. このグループのコピーを作成し、「PrimaryGroup」に名前を変更して、「TypeOfSickNoteGroup」の中に配置します。
  3. 「PrimaryGroup」グループに「kwCheckmark」という名前の Static Text 要素を追加します。
  4. 検索するテキストを「eerste / Primary, première, primair」に設定します。
これらの documents では、チェックマークの近くのテキストはチェックマークの側にあるため、検索範囲は右側ではなく左側に設定します。
3

Checkmark、XMark、CheckmarkRegion 要素を設定する

以下の表に従って、「PrimaryGroup」内の残りの要素を設定します。
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditionsDo not find element if “Checkmark” is found
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
4

SecondaryGroup と RelapseGroup を作成する

  1. 「PrimaryGroup」のコピーを作成し、「SecondaryGroup」に名前を変更します。その「kwCheckmark」要素の検索テキストを「prolongation」、「verlenging」に変更します。
  2. オランダおよびベルギーの病欠証明書は 3 種類に分かれており、ドイツの病欠証明書と比べて追加の種類として「relapse」があります。「PrimaryGroup」の別のコピーを作成し、「RelapseGroup」に名前を変更します。
  3. RelapseGroup の「kwCheckmark」要素の検索テキストを「Herval」に変更し、文の途中に現れる語を除外するため Match case オプションを有効にします。
検索要素の構造は次のようにします。
ベルギー・オランダの病欠証明書の種類の検索要素の階層: TypeOfSickNoteGroup に PrimaryGroup、SecondaryGroup、RelapseGroup が含まれ、それぞれに kwCheckmark、Checkmark、XMark、CheckmarkRegion 要素がある
5

Relapse チェックマークを追加してフィールドをマッピングする

  1. Manage Fields ウィンドウを開き、「Type of 病欠証明書」チェックマークグループに「Relapse」チェックマークを追加します。現在のアクティビティで使用するため、グループ内のすべてのチェックマークを有効にして Save をクリックします。
  2. チェックマークを対応する Region 要素にマッピングし、フィールドを有効にした際に自動的に作成された要素を削除します。

アクティビティのテスト

必要な検索要素とfieldはすべて設定しました。すべてのdocumentsを選択し、Match をクリックして Fields タブに切り替え、ドキュメント画像上のfieldの領域を確認します。最良パスの仮説に属している場合にのみ、その領域はfieldに渡されることに注意してください。 結果に問題がなければ、ドキュメント画像上部のコピーiconをクリックして、予測ラベリングを基準ラベリングにコピーします。

次のステップ

ステップ 9. ビジネスルールを設定する

抽出されたfieldの値を検証して正規化するためのビジネスルールを追加します。

チュートリアルの概要

チュートリアルの冒頭に戻ります。