複数の文書を含むファイルのページストリームを、処理可能な個別の文書に分割するには、Document Splitter skill を作成します。Document Splitter Skillは、Advanced Designerでのみ作成できます。以下のシナリオでは、Classify、Extraction Rules、および Splitter Script アクティビティを組み合わせて、文書境界を特定します。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
シナリオを選択
| シナリオ | 使用する場面 | 主なアクティビティ |
|---|---|---|
| 1つのストリーム内に同じ種類の文書がある | 1つのファイルに複数の請求書が含まれている | Extraction Rules + Splitter Script (+ Classify) |
| 文書を分割し、別紙を保持する | 保持すべき説明用の別紙ページが文書に含まれている | Classify + Splitter Script (+ Extraction Rules) |
| 文書を分割して種類を判別する | ストリームに異なる種類の文書が含まれている (例: 融資申請書一式) | Classify + Extraction Rules + Splitter Script |
| ページを並べ替えて整理する | ページの順序が乱れており、空白ページやごみページが含まれている | Extraction Rules + Splitter Script |
1 つのストリーム内の同種の文書
- 請求書番号とページ番号を抽出するために、Extraction Rules アクティビティ を追加します。
- 各文書の先頭ページが他のページと見た目で異なる場合は、Classify アクティビティ を追加します。
- ページ間で抽出した値を比較し、新しい文書の開始位置を判断するために、Splitter Script アクティビティ を使用します。
文書を分割して別紙を保持する
- Classify アクティビティを使用して、各ページを主文書のページまたは別紙としてラベル付けします。
- 必要に応じて、抽出可能なデータがないページにフラグを付けるために Extraction Rules アクティビティ を追加します。こうしたページは別紙である可能性があります。
- Splitter Script アクティビティを使用して、各別紙を親文書に関連付けるか、別個の文書として出力します。
文書を分割して文書タイプを判別する
- Classify アクティビティを使用して、各ページに文書タイプのラベルを付けます。
- Extraction Rules アクティビティを追加して、新しい文書の開始を示すデータを抽出します。
- Splitter Script アクティビティを使用して、各出力文書の分割とラベル付けのルールを定義します。
ページの並べ替えとクリーンアップ
- ページ番号 (または順序を示す任意の情報) を抽出するfieldを追加します。
- ページにテキストが含まれているかどうかを検出するfieldを追加します。テキストが含まれていないページは、空白またはごみとして扱えます。
- Splitter Script アクティビティを使用してページを並べ替え、空白ページやごみページを別の出力ドキュメントに振り分けます。
Document Splitter skill を構築する

文書をアップロードする
Documents タブでファイルをアップロードします。各文書セットには、1 つの業務トランザクションに対応するファイルを含める必要があります。元のファイルは個別のページに変換され、Splitter Script アクティビティ を除くすべてのアクティビティで各ページが個別に処理されます。
分類アクティビティと抽出アクティビティを追加する
文書境界と文書タイプの特定に必要なデータを抽出できるよう、処理フローを設定します。ストリームに複数の文書タイプが含まれる場合や、先頭ページの見た目が残りのページと異なる場合は、Classify activity を追加します。同じ文書タイプの文書を分けたり、文書クラスにラベル付けしたりするのに役立つデータを取得するために、必要に応じてフィールドやその他のアクティビティを追加します。
Splitter Script アクティビティ を設定する
Splitter Script Properties ペインで文書タイプを追加し、ページの流れを文書セットに変換するスクリプトを記述します。このスクリプトはトランザクション内のすべてのページにアクセスでき、他のアクティビティで生成されたデータを参照して、どのページを新しい文書の開始ページにするかを判断できます。
テストして公開する
Test Skill Using Selected Documents をクリックして結果を評価します。結果が十分に良好であれば、skill を公開します。
Splitter Script アクティビティ
各ページから抽出されたデータを分析して、文書の境界を定義します。
Classify アクティビティ
各ページに、文書タイプまたは先頭ページかどうかのラベルを付けます。
Extraction Rules アクティビティ
ページ番号、請求書番号、文書キーワードなどの識別子を抽出します。
Document Splitter skills
Document Splitter skill の構造、設定、公開方法に関するリファレンスです。
