メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

複数の文書を含むファイルのページストリームを、処理可能な個別の文書に分割するには、Document Splitter skill を作成します。Document Splitter Skillは、Advanced Designerでのみ作成できます。以下のシナリオでは、ClassifyExtraction Rules、および Splitter Script アクティビティを組み合わせて、文書境界を特定します。

シナリオを選択

シナリオ使用する場面主なアクティビティ
1つのストリーム内に同じ種類の文書がある1つのファイルに複数の請求書が含まれているExtraction Rules + Splitter Script (+ Classify)
文書を分割し、別紙を保持する保持すべき説明用の別紙ページが文書に含まれているClassify + Splitter Script (+ Extraction Rules)
文書を分割して種類を判別するストリームに異なる種類の文書が含まれている (例: 融資申請書一式)Classify + Extraction Rules + Splitter Script
ページを並べ替えて整理するページの順序が乱れており、空白ページやごみページが含まれているExtraction Rules + Splitter Script

1 つのストリーム内の同種の文書

このシナリオは、1 つのファイルに同じ種類の文書が複数含まれている場合に使用します。たとえば、同じベンダーから同一の請求期間に発行された請求書がまとまったファイルです。各請求書には固有の請求書番号があり、ページ番号が記載されている場合もあります。これらのデータを使って区切りを特定します。

文書を分割して別紙を保持する

このシナリオは、文書に説明用のページ (別紙) が付いており、それらを保持する必要はあるものの、抽出対象にはしない場合に使用します。

文書を分割して文書タイプを判別する

ストリームに異なる種類の文書が含まれている場合は、このシナリオを使用します。たとえば、身分証明書、収入証明書、銀行取引明細書、公共料金の請求書を含むローン申請書類一式などです。

ページの並べ替えとクリーンアップ

ページの順序がバラバラだったり、雑にスキャンしたために空白ページやごみページが含まれていたりする場合は、このシナリオを使用します。並べ替えができるのは、ページに順序を示す情報 (たとえば印字されたページ番号) がある場合に限られます。
  • ページ番号 (または順序を示す任意の情報) を抽出するfieldを追加します。
  • ページにテキストが含まれているかどうかを検出するfieldを追加します。テキストが含まれていないページは、空白またはごみとして扱えます。
  • Splitter Script アクティビティを使用してページを並べ替え、空白ページやごみページを別の出力ドキュメントに振り分けます。

Document Splitter skill を構築する

Classify、Extraction Rules、Splitter Script アクティビティを含む Document Splitter skill の処理フロー
1

Document Splitter skill を作成する

Advanced Designer を開き、スタート ページで Create Splitter Skill をクリックします。
2

文書をアップロードする

Documents タブでファイルをアップロードします。各文書セットには、1 つの業務トランザクションに対応するファイルを含める必要があります。元のファイルは個別のページに変換され、Splitter Script アクティビティ を除くすべてのアクティビティで各ページが個別に処理されます。
3

分類アクティビティと抽出アクティビティを追加する

文書境界と文書タイプの特定に必要なデータを抽出できるよう、処理フローを設定します。ストリームに複数の文書タイプが含まれる場合や、先頭ページの見た目が残りのページと異なる場合は、Classify activity を追加します。同じ文書タイプの文書を分けたり、文書クラスにラベル付けしたりするのに役立つデータを取得するために、必要に応じてフィールドやその他のアクティビティを追加します。
4

Splitter Script アクティビティ を設定する

Splitter Script Properties ペインで文書タイプを追加し、ページの流れを文書セットに変換するスクリプトを記述します。このスクリプトはトランザクション内のすべてのページにアクセスでき、他のアクティビティで生成されたデータを参照して、どのページを新しい文書の開始ページにするかを判断できます。
5

テストして公開する

Test Skill Using Selected Documents をクリックして結果を評価します。結果が十分に良好であれば、skill を公開します

Splitter Script アクティビティ

各ページから抽出されたデータを分析して、文書の境界を定義します。

Classify アクティビティ

各ページに、文書タイプまたは先頭ページかどうかのラベルを付けます。

Extraction Rules アクティビティ

ページ番号、請求書番号、文書キーワードなどの識別子を抽出します。

Document Splitter skills

Document Splitter skill の構造、設定、公開方法に関するリファレンスです。