ドキュメントセットの処理

ドキュメントセットは、単一のドキュメントや複数のセクションを持つドキュメントとは異なる方法で処理されます。ドキュメントセットを処理する際は、セット内に不足しているドキュメントがないことを確認するために、特別な完全性ルールが使用されます。完全性ルールは、単純なドキュメント一覧から、他のドキュメントで参照されている場合やインベントリ一覧に含まれている場合には特定のドキュメントがセットに含まれていなければならないと定める複雑なルールまで、さまざまです。ドキュメントセットは、次の処理段階を経ます。

セットに含まれているべきすべてのドキュメントが揃っていることを確認し、各タイプのドキュメント数を確認し、必要に応じてセット内のドキュメントの順序を確認します。
セット内の1つの主要ドキュメントからデータを抽出するか、複数のドキュメントからデータを抽出して矛盾がないかを検出します (例: すべてのドキュメントが同じ人または組織に関連していることを確認するため) 。
ドキュメントに署名や印章があるかどうかを目視で確認します。
セットを構成するすべてのドキュメントから検索可能なPDFを作成します。
抽出したデータを、元の文書画像へのリンクとともにデータベースにエクスポートします。

ドキュメントセットには、データを抽出する必要はないものの、その画像を処理結果に含める必要があるドキュメントが含まれる場合があります。このようなドキュメントでは光学認識は不要ですが、ドキュメントセットに不足がないことを確認するために、そのタイプは引き続き検出する必要があります。例としては、手書きの申請書、証明書、レシートなどがあります。ドキュメントセット認識のプロセスには、いくつかの特徴があります。子ドキュメントを列挙する必要はありません。代わりに、認識するドキュメントセットのみを指定すれば十分です。これを行うには、Recognition タブにあるバッチタイプのプロパティに移動します。指定した定義に対応するセット全体が認識されます。子ドキュメントがセットの最上位レベルに移動されると、一致した定義がセット構造に準拠していないため、アセンブリエラーが発生します。このようなエラーを回避するには、一般認識一覧に子ドキュメント定義を追加する必要があります。 関連項目: ドキュメントセットの作成と設定