メインコンテンツへスキップ
特定の企業の文書は、独自かつ複雑な構造を持つ場合があります。こうした文書から正確にデータを抽出するには、会社ごとの抽出アクティビティを設定する必要があります。これは、Classify By Company アクティビティを使用して、1つの Document skill 内で実現できます。このアクティビティは、データ カタログを使用して会社別に文書を分類します。

データ カタログの使用

データ カタログは、特定の情報を含むデータの集合です。たとえば、企業名、住所、銀行口座番号といった企業関連情報が該当します。データ カタログは、文書上に記載された企業(ベンダー、荷受人(受取人)、銀行、船会社など)を検索するために使用できます。データ カタログには、そのデータ カタログと同一の構造を持つ CSV ファイルからデータを取り込めます。データ カタログの使用方法の詳細は、Skill Designer ガイドの「データ カタログの使用」セクションを参照してください。 文書を「Classify By Company」アクティビティで処理する場合、接続されたデータ カタログ内で特定の企業データが検索されます。結果として一意の企業識別子が得られ、Skill 内の対応する field に記録されます。この企業識別子は、企業固有の文書処理アルゴリズムの設定に使用されます。「Classify By Company」アクティビティの動作に必須なのはこの企業識別子のみですが、データ カタログに保存されている企業情報を用いて、対象の field に対する追加の抽出アクティビティの設定を省略できるよう、さらに多くの field を自動的に入力することもできます。そのためには、データ カタログの列を Skill の該当する field にマッピングする必要があります。 「Classify By Company」アクティビティは、接続先の Vantage サーバーで利用可能な「Document Issuer Companies」タイプのデータ カタログを使用します。 場合によっては、文書内で関連する2社(たとえば、商品の供給者と購入者)を検索したいことがあります。その場合は、オプションの2つ目のデータ カタログとして「Document Receiver Companies」タイプを追加します。関連のない2社を見つける必要がある場合は、このオプションを使用するか、「Classify By Company」アクティビティを2つ追加することができます。

企業ペアの検索

各事業部門は独自のサプライヤーデータベースを持っている場合があります。サプライヤーが複数の事業部門と取引している場合、異なる ID を持つ複数のエントリが存在します。この場合、事業部門に対応するサプライヤーの正確なエントリを特定する必要があります。これを行うには、Document Issuer Companies データ カタログの Company Correlation ID 列に値を入力します。すると検索は、ドキュメント発行者の相関 ID がドキュメント受領者 ID と一致する企業ペアを探します。相関 ID が一部欠落している場合は、相関 ID が一致したペアが優先されます。 企業ペアを検索する際は、サプライヤーと事業部門の相関に基づいて仮説が生成されます。Classify By Company アクティビティは、ドキュメント画像上の field 値と最も確実に一致するドキュメント受領企業レコードを 5 件選択します。次に、各レコードについて、Company Correlation ID が Receiver Company ID と同一であるドキュメント発行企業レコードを 5 件選択します。データ カタログに Company Correlation ID が Receiver Company ID と同一のレコードが存在しない場合は、Company Correlation ID が空のレコードが代わりに選択されます。
重要: 有効なペアを見つけるには、すべてのレコードに正しい Company Correlation ID を入力する必要があります。
その結果、最も一致度の高い発行者—受領者のペアが選択されます。企業検出の詳細については、企業検出の仕組みを参照してください。 ドキュメント発行企業が任意のドキュメント受領者と取引する可能性がある場合は、Document Issuer Companies データ カタログの Company Correlation ID 列を入力する必要はありません。検索では、考えられるすべての企業ペアが考慮されます。

データ カタログのタイプ

文書発行元企業のデータ カタログ

NameDescription
Issuer Company ID文書の発行元を検出して取得します。外部情報システムで文書の発行元を識別します。

注: すべての事業部が同一の顧客データベースを使用している場合、これはデータ カタログ内のエントリの一意の識別子です。そうでない場合、データ カタログ内のエントリは Issuer Company IDCompany Correlation ID の組み合わせで一意に識別されます。
Company Correlation ID会社の事業部を示す識別子です。

注: 会社の事業部が異なる顧客データベースを使用している場合、データ カタログの一意キーは Issuer Company IDCompany Correlation ID の組み合わせとなるため、このデータ カタログ列は必ず入力する必要があります。詳細は、企業のペアを探すを参照してください。
Tax IDこれらの列は、企業の一意識別子検索に使用できます。
National Tax IDこれらの列は、企業の一意識別子検索に使用できます。
IBANこれらの列は、企業の一意識別子検索に使用できます。
Nameこれらの列は、企業名および住所の検索に使用できます。
Postal Codeこれらの列は、企業名および住所の検索に使用できます。
Streetこれらの列は、企業名および住所の検索に使用できます。
Cityこれらの列は、企業名および住所の検索に使用できます。
State or Provinceこれらの列は、企業検出プロセスでは使用しません。文書の field を補完するためにのみ使用できます。
Countryこれらの列は、企業検出プロセスでは使用しません。文書の field を補完するためにのみ使用できます。
Bank Accountこれらの列は、企業検出プロセスでは使用しません。文書の field を補完するためにのみ使用できます。
Bank Codeこれらの列は、企業検出プロセスでは使用しません。文書の field を補完するためにのみ使用できます。

Document 受領企業のデータ カタログ

NameDescription
Receiver Company ID文書の受領者を検出して取得します。外部情報システムにおける文書受領者を識別します。データ カタログ内のエントリの一意キーです。
Tax IDこの列は一意の企業識別子の検索に使用できます。
Nameこれらの列は企業名および住所の検索に使用できます。
Postal Codeこれらの列は企業名および住所の検索に使用できます。
Streetこれらの列は企業名および住所の検索に使用できます。
Cityこれらの列は企業名および住所の検索に使用できます。
State or Provinceこれらの列は企業検出プロセスでは使用されません。Document の field を補完するためにのみ使用できます。
Countryこれらの列は企業検出プロセスでは使用されません。Document の field を補完するためにのみ使用できます。