メインコンテンツへスキップ
データ カタログのレコードの詳細度と品質は、企業検出の精度に大きく影響します。Document の発行者および受領者のレコードがドキュメント画像から抽出されたテキストとより高い精度で一致するほど、発行者企業および受領企業はより正確に検出されます。

高精度な検出のためのベスト プラクティス

検出結果の精度を可能な限り高めるため、次の点を確認してください。
  • 一意の会社識別子が入力されていること。一意の値の列(税務識別番号、国の税務識別番号、IBAN(国際銀行口座番号))を入力すると、これらの値は各社で一意であるため、正しく検出される可能性が大幅に向上します。
  • 重複する会社レコードがないこと。重複レコードがないほど、会社を正しく検出できる可能性が高まります。
  • 無関係なレコードがないこと。データ カタログ内の古いまたは無効なレコードは、さまざまなfield値の偶然の類似性により、会社が誤って検出される原因となる可能性があります。
  • 各会社レコードで、すべてのfieldが入力されていること。会社に関するできる限り正確な情報を入力してください。情報が正確であればあるほど、会社を正しく検出できる可能性が高まります。

企業検出プロセス

企業検出は次のステップで行われます。 以下のfieldの値は、一意の企業識別子と見なされます:
  • 税務識別番号
  • National Tax ID
  • IBAN(国際銀行口座番号)
Classify By Company アクティビティは、キーワードと正規表現を使用して、上記のfieldの値をドキュメント画像内で検索します。指定がない場合、このステップはスキップされます。 ドキュメント画像で検出された税務識別番号、National Tax ID、IBANの値は、データ カタログへのクエリに使用されます。次に、データ カタログから取得した税務識別番号、National Tax ID、IBANの値を、画像上で検出された値と照合します(完全一致を使用)。 照合のため、値は次のように正規化されます:
  • 文字は大文字に変換されます
  • 空白および次の文字は削除されます: ”.”, ”,”, ””, ”/”, ”****“
Document 画像で検出された全文は、データ カタログの検索クエリに使用されます。 次に、データ カタログから取得した Name、Street、Postal code、City の値を、画像上で検出された値と照合します(完全一致を使用)。
注: 最良の検索結果を得るために、データ カタログの該当列が適切に入力されていることを確認してください。会社を 税務識別番号、National Tax ID、または IBAN(国際銀行口座番号)で特定できない場合、会社名と住所情報が特に重要になります。

ステップ 3: 仮説の生成

ステップ1および2で見つかった会社に基づき、仮説のセットを生成します。Classify By Company アクティビティはこれらの仮説を評価し、ドキュメント画像上で検出された field の値と最も確度高く一致する、ドキュメント発行者5件とドキュメント受領者5件の会社レコードを選択します。これらのレコードは25組のペアに組み合わせられ、各ペアが個別の仮説として扱われます。学習済みモデルが信頼性で仮説を評価し、最も適合する発行者–受領者ペアを選択します。
注: ドキュメント受領者の会社数が非常に少ない場合(たとえば1社のみの場合)でも、Document Receiver Companies データ カタログの使用を推奨します。受領者の会社が誤って発行者の会社として検出されるのを防ぐためです。
Document Issuer Companies データ カタログで Issuer Company ID が Receiver Company ID に依存すると指定されている場合は、この相関関係に基づいて仮説を生成します(企業のペアを探すを参照)。

文書の発行元企業および受取企業の検出結果

文書で発行元企業と受取企業を検出した結果、次の識別子が見つかります。
  • Document Issuer Companies データ カタログの発行元企業識別子
  • Document Receiver Companies データ カタログの受取企業識別子
注: Document Issuer Companies データ カタログで、Issuer Company ID が Receiver Company ID に依存すると指定されている場合(企業のペアを探すを参照)、発行元企業の検出結果には、Receiver Company ID に対応する Issuer Company ID が含まれます。