ドイツ向けアクティビティの設定が完了したら、オランダ語とベルギーの病欠証明書向けに 2 つ目の Extraction Rules アクティビティを設定します。 オランダ語とベルギーの病欠証明書は、ドイツの文書とは構造が異なり、同じ class 内でも形式のばらつきが大きいため、ここでは Fast Learning は適していません。さらに、これらの文書に固有の fields もあるため、アクティビティの設定に合わせてデータ フォームに追加していきます。 まずはすべての文書に共通して現れる fields から始め、その後、新しいフィールドに対応するためにフォームを拡張します。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
発行日の抽出
Date field を追加する
- Fields タブで Manage Fields ダイアログを開き、このアクティビティで使用する “Date” field を選択します。Save をクリックします。
- Search Elements タブに移動します。“Date” field 用の Date 型 search element が自動的に作成され、マッピングされています。
kwDate ラベルを含む IssueDateGroup を作成する
- “IssueDateGroup” という名前の Group search element を作成し、オプションに設定します。
- グループ内に “kwDate” という名前の Static Text 要素を追加します。これにより、実際の日付の位置を特定する手がかりとなるラベルを見つけます。
- この document class にはオランダ語またはフランス語の文書が含まれるため、Text to find ダイアログでラベルテキストの候補を別々の行に入力します。1 行目に “Date”、2 行目に “Datum” を入力します。
- Search for parts of words オプションを無効にします。
Date 要素の search area を設定する
- 要素の作成時に自動的に追加された Nearest to 関係を削除します。
- 検索対象の要素に最も近い要素として “kwDate” 要素を選択します。
- 日付はキーワードの右側または下側に配置されることがあります。“kwDate” 要素の下の search area を指定します。
- search area には、キーワードがある行も含める必要があります。要素名の右側にある下側境界アイコンをクリックし、Top Boundary of Region を選択します。行の高さがそろっていない場合があるため、search area が行の少し上まで広がるように Below の値を -10 に設定します。
病欠日付の抽出
Table Cell 要素は、document の表の中にあるフィールドに対してだけ使用するものではありません。内容が似たボックスや表のような構造に配置されているフォームからデータを抽出する必要がある場合にも役立ちます。これらのボックスに明確な区切り線がある場合、Table Cell 要素は非常に効果的です。
Start Date fields と End Date fields を追加する
Manage Fields ダイアログを開き、現在のアクティビティに次の fields を追加します:
- Start Date
- End Date
Table Cell 要素を使用して StartDateGroup を作成する
Search Elements タブに移動し、開始日の抽出用の Group 要素を作成します。グループに含まれる要素に対して次のパラメータを設定します:
| Parameter | Value |
|---|---|
| Group search element: | |
| Name | StartDateGroup |
| Static Text search element: | |
| Name | kwStartDate |
| Text to find | Vanaf / From, A partir du, Van |
| Search for parts of words | Disabled |
| Table Cell search elements: | |
| Name | StartDateDay |
| Search pattern | Number |
| Character count | {1, 1, 3, 3} |
| Search for parts of words | Disabled |
| Search area | Below the “kwStartDate” element, nearest to “kwStartDate” |
| Table Cell search element: | |
| Name | StartDateMonth |
| Search pattern | Number |
| Character count | {1, 1, 3, 3} |
| Search for parts of words | Disabled |
| Search area | Below the “kwStartDate” element, right of “StartDateDay”, nearest to “StartDateDay” |
| Table Cell search element: | |
| Name | StartDateYear |
| Search pattern | Number |
| Character count | {2, 2, 4, 4} |
| Search for parts of words | Disabled |
| Search area | Below the “kwStartDate” element, right of “StartDateMonth”, nearest to “StartDateMonth” |
Table Cell 要素は、セル内のテキストをそのまま返します。この場合、検索パターンには Number が含まれており、数字だけを認識するため、要素が返すテキストは数値になります。
コピーとして EndDateGroup を作成する
- 「StartDateGroup」要素のコピーを作成し、「EndDateGroup」に名前を変更します。
- グループのサブ要素の名前を次のように変更します: 「kwStartDate」を「kwEndDate」に、「StartDateDay」を「EndDateDay」に、「StartDateMonth」を「EndDateMonth」に、「StartDateYear」を「EndDateYear」に変更します。
- 「kwEndDate」要素の検索テキストを「Tot en met / Till and incl., Jusqu’ au, Tot en met」に変更します。
- 「EndDateDay」要素の検索範囲を指定します。「kwEndDate」要素の下で、それに最も近い位置にあるようにします。ほかの関係は削除します。
日付用の Data Composition fields を追加する
-
Manage Fields ダイアログを開き、「Start Date Composed」という Data Composition フィールド を追加します。次の要素を fields にマッピングします:
- 「StartDateDay」を
Dayに - 「StartDateMonth」を
Monthに - 「StartDateYear」を
Yearに
- 「StartDateDay」を
-
「End Date Composed」という Data Composition フィールド を作成します。次の要素を fields にマッピングします:
- 「EndDateDay」を
Dayに - 「EndDateMonth」を
Monthに - 「EndDateYear」を
Yearに
- 「EndDateDay」を
- 「Start Date Composed」と「End Date Composed」のデータ合成 fields を「Start Date」フィールドと「End Date」フィールドにマッピングします。

病欠証明書の種類の抽出
Primary と Secondary のチェックマークを有効にする
Fields タブで Manage Fields ダイアログを開き、「Type of 病欠証明書」チェックマークグループを有効にします。現在のアクティビティで使用する「Primary」と「Secondary」のチェックマークをグループ内で有効にします。Save をクリックします。
TypeOfSickNoteGroup と PrimaryGroup のラベルを作成する
ドイツの documents 用に作成したものと同様の構造を作成しますが、オランダおよびベルギーの documents ではラベルが先に来ることに注意してください。このようなグループでは子要素の順序が重要です。
- 「TypeOfSickNoteGroup」という名前の Group 要素を作成します。
- このグループのコピーを作成し、「PrimaryGroup」に名前を変更して、「TypeOfSickNoteGroup」の中に配置します。
- 「PrimaryGroup」グループに「kwCheckmark」という名前の Static Text 要素を追加します。
- 検索するテキストを「eerste / Primary, première, primair」に設定します。
これらの documents では、チェックマークの近くのテキストはチェックマークの左側にあるため、検索範囲は右側ではなく左側に設定します。
Checkmark、XMark、CheckmarkRegion 要素を設定する
以下の表に従って、「PrimaryGroup」内の残りの要素を設定します。
| Parameter | Value |
|---|---|
| Static Text search element: | |
| Name | Checkmark |
| Text to find | X |
| Character count | {1, 1, 3, 3} |
| Search for parts of words | Disabled |
| Search area | Right of “kwCheckmark”, nearest to “kwCheckmark” |
| Static Text search element: | |
| Name | XMark |
| Text to find | X |
| Character count | {1, 1, 3, 3} |
| Search for parts of words | Disabled |
| Search area | Below the “kwCheckmark” top boundary, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark” |
| Under what conditions | Do not find element if “Checkmark” is found |
| Region search element: | |
| Name | CheckmarkRegion |
| Search Conditions section of the Code Editor | if Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind; |
SecondaryGroup と RelapseGroup を作成する
- 「PrimaryGroup」のコピーを作成し、「SecondaryGroup」に名前を変更します。その「kwCheckmark」要素の検索テキストを「prolongation」、「verlenging」に変更します。
- オランダおよびベルギーの病欠証明書は 3 種類に分かれており、ドイツの病欠証明書と比べて追加の種類として「relapse」があります。「PrimaryGroup」の別のコピーを作成し、「RelapseGroup」に名前を変更します。
- RelapseGroup の「kwCheckmark」要素の検索テキストを「Herval」に変更し、文の途中に現れる語を除外するため Match case オプションを有効にします。

アクティビティのテスト
次のステップ
ステップ 9. ビジネスルールを設定する
抽出されたfieldの値を検証して正規化するためのビジネスルールを追加します。
チュートリアルの概要
チュートリアルの冒頭に戻ります。

