メインコンテンツへスキップ複数のドキュメントを含むファイルのページフローを、後続の処理に備えた個別のドキュメントに分割するには、Document Splitter Skill を作成します。
同一タイプの複数ドキュメントを含むファイルがあるとします(例:特定期間に同一ベンダーから発行された請求書のまとめ)。各請求書には固有の番号があり、ページ番号が印字されている場合もあります。こうしたデータを用いて、ドキュメントを相互に分離できます。Extraction Rules アクティビティを使用して、請求書番号やページ番号の抽出を設定できます。ドキュメントの先頭ページが他のページと大きく異なる場合は、Classify アクティビティを使用することも可能です。続いて、Splitter Script アクティビティで抽出値を分析し、現在のページが新しいドキュメントの先頭ページかどうかを判定します。
処理対象のドキュメントに、保管は必要だがデータ抽出は不要な説明資料が添付されているとします。この場合、Classify アクティビティを使用して、ページを必要な種類のドキュメントとその付属資料に分類できます。また、Extraction Rules アクティビティを使用して、ページ上に有用なデータがあるかどうかを判定できます。有用なデータがないページは、付属資料ページである可能性が高いでしょう。次に、Splitter Script アクティビティを使用して、付属資料ページを各ドキュメントに付加するか、別個のドキュメントとして切り出すことができます。
複数の種類のドキュメント(たとえば、ローン申込書に本人確認書類、所得証明、銀行明細、公共料金の請求書、その他のドキュメントが添付されている場合)を含むファイルがあるとします。この場合、Classify アクティビティで各ページを分類し、Extraction Rules アクティビティで、現在のページが新しいドキュメントの先頭ページかどうかを判定するために必要なデータを抽出できます。次に、Splitter Script アクティビティを使用して、ドキュメントを分割し、その種類を判定するためのルールを設定できます。
乱雑なスキャンの結果として生じたページの並べ替えや、空白・不要ページの削除が必要になる場合があります。通常、並べ替えはページに正しい順序を示すデータ(例:ページ番号)が含まれている場合にのみ可能です。この場合、ページ番号を抽出するためのfieldを作成できます。さらに、ページ上の任意のTextを検出するためのfieldを作成し、空白ページを不要として除外することもできます。Splitter Script activityを使用すると、ページ番号に従ってページを並べ替え、空白または不要なページのみを集めた別のドキュメントを作成できます。
Document Splitter Skill を作成する手順
-
ABBYY Vantage の Advanced Designer を開き、スタートページで Create Splitter Skill をクリックして新しい Document Splitter Skill を作成します。
-
Documents タブでファイルをアップロードします。各ドキュメントセットには、1 つのビジネストランザクションに属するファイルのみを含めてください。ソースファイルのセットは個別のページに変換されます。Splitter Script activity 以外のすべてのアクティビティは各ページを個別に処理することに注意してください。
-
トランザクション内の各ページのドキュメントタイプを判定し、どこで 1 つのドキュメントが終わり次のドキュメントが始まるかを特定できるように、ドキュメント処理フローを構成します。
a. ソースページのフローに複数種類のドキュメントが含まれる場合、または各ドキュメントの先頭ページが他のページと大きく異なる場合は、Classify activity を設定してページを分類します。
b. 必要に応じて、同一タイプのドキュメントを分割したり、ドキュメントのクラスを判定したりするために使用できるデータを抽出するため、field にラベルを付けるか、他のアクティビティを追加します。
-
Splitter Script Properties ペインでドキュメントタイプを追加し、ページのフローをドキュメントのセットに変換するスクリプトを構成して、Splitter Script activity を設定します。スクリプトはトランザクション内のすべてのページにアクセスでき、他のアクティビティのデータを分析して、新しいドキュメントの先頭ページを判定できます。
-
Test Skill Using Selected Documents をクリックして Skill をテストし、結果を分析します。
-
結果に問題がなければ、Skill を公開します。