企業検出の仕組み - ABBYY Documentation

データカタログのレコードの詳細度と品質は、企業検出の精度に大きく影響します。文書画像から抽出されたテキストと発行企業および受領企業のレコードが一致に近いほど、発行企業および受領企業の会社をより高い精度で検出できます。

高精度な検出のためのベストプラクティス

検出結果の精度を可能な限り高めるため、次の点を確認してください。

一意の会社識別子が入力されていること。一意の値の列 (税務識別番号、国の税務識別番号、IBAN (国際銀行口座番号) ) を入力すると、これらの値は各社で一意であるため、正しく検出される可能性が大幅に向上します。
重複する会社レコードがないこと。重複レコードがないほど、会社を正しく検出できる可能性が高まります。
無関係なレコードがないこと。データカタログ内の古いまたは無効なレコードは、さまざまなfield値の偶然の類似性により、会社が誤って検出される原因となる可能性があります。
各会社レコードで、すべてのfieldが入力されていること。会社に関するできる限り正確な情報を入力してください。情報が正確であればあるほど、会社を正しく検出できる可能性が高まります。

企業検出プロセス

企業検出は次のステップで行われます。

ステップ 1: 一意識別子の検索

以下のfieldの値は、一意の会社識別子と見なされます:

税務識別番号
National Tax ID
IBAN (国際銀行口座番号)

Classify By Company アクティビティは、キーワードと正規表現を使用して、上記のfieldの値を文書画像内で検索します。指定がない場合、このステップはスキップされます。文書画像で検出された税務識別番号、National Tax ID、IBANの値は、データカタログへのクエリに使用されます。次に、データカタログから取得した税務識別番号、National Tax ID、IBANの値を、画像上で検出された値と照合します (完全一致を使用) 。照合のため、値は次のように正規化されます:

文字は大文字に変換されます
空白および次の文字は削除されます: ”.”, ”,”, ”—”, ”/”, ”****“

ステップ 2: 会社名と住所の検索

文書画像で検出された全文は、データカタログの検索クエリに使用されます。次に、データカタログから取得した Name、Street、Postal code、City の値を、画像上で検出された値と照合します (完全一致を使用) 。

最良の検索結果を得るために、データカタログの該当列が適切に入力されていることを確認してください。会社を税務識別番号、National Tax ID、または IBAN (国際銀行口座番号) で特定できない場合、会社名と住所情報が特に重要になります。

ステップ 3: 仮説を生成

ステップ1および2で見つかった会社に基づき、仮説のセットを生成します。Classify By Company アクティビティはこれらの仮説を評価し、文書画像上で検出された field の値と最も確度高く一致する、文書発行元5件と文書受領者5件の会社レコードを選択します。これらのレコードは25組のペアに組み合わせられ、各ペアが個別の仮説として扱われます。学習済みモデルが信頼性で仮説を評価し、最も適合する文書発行元–文書受領者ペアを選択します。

文書受領者の会社数が非常に少ない場合 (たとえば1社のみの場合) でも、Document Receiver Companies データカタログの使用を推奨します。文書受領者の会社が誤って文書発行元の会社として検出されるのを防ぐためです。

Document Issuer Companies データカタログで Issuer Company ID が Receiver Company ID に依存すると指定されている場合は、この相関関係に基づいて仮説を生成します (企業のペアを探すを参照) 。

文書の文書発行元企業および文書受領者企業の検出結果

文書上で文書発行元企業と文書受領者企業を検出した結果、次の識別子が特定されます。

Document Issuer Companies データカタログ内の文書発行元企業識別子
Document Receiver Companies データカタログ内の文書受領者企業識別子

Document Issuer Companies データカタログで、Issuer Company ID が Receiver Company ID に依存すると指定されている場合、文書発行元企業の検出結果には、Receiver Company ID に対応する Issuer Company ID が含まれます。詳細については、企業のペアを探すを参照してください。

​高精度な検出のためのベスト プラクティス

​企業検出プロセス

​ステップ 1: 一意識別子の検索

​ステップ 2: 会社名と住所の検索

​ステップ 3: 仮説を生成

​文書の文書発行元企業および文書受領者企業の検出結果

高精度な検出のためのベストプラクティス

企業検出プロセス

ステップ 1: 一意識別子の検索

ステップ 2: 会社名と住所の検索

ステップ 3: 仮説を生成

文書の文書発行元企業および文書受領者企業の検出結果