公司检测的工作原理

数据目录（data catalog）记录的详尽程度与质量会显著影响公司检测的准确性。Document 中开票方与收票方的记录越贴合从文档图像中提取的文本，识别到的开票公司与收票公司就越准确。

提高检测准确性的最佳实践

为确保检测结果尽可能准确，请确保：

填写唯一的公司标识符。填写唯一值列（纳税人识别号（TIN）、国家税号、IBAN（国际银行账户号码））将显著提升正确检测的概率，因为这些值对每家公司都是唯一的。
不存在重复的公司记录。避免重复记录可提高正确检测公司的概率。
不存在无关记录。数据目录（data catalog）中的过时或无效记录，可能因不同 field 值之间的偶然相似而导致公司被误判。
为每条公司记录填写所有 field。尽可能提供准确完整的公司信息。信息越准确，正确检测公司的概率越高。

公司识别流程

公司识别包括以下步骤：

第一步：唯一标识符搜索

以下字段的值被视为公司的唯一标识符：

纳税人识别号
国家纳税人识别号
IBAN（国际银行账户号码）

Classify By Company 活动会使用关键字和正则表达式在文档图像中搜索上述字段的值。如果未指定，则会跳过此步骤。在文档图像上检测到的纳税人识别号、国家纳税人识别号和 IBAN 值用于查询数据目录（data catalog）。随后，从数据目录（data catalog）返回的纳税人识别号、国家纳税人识别号和 IBAN 值将与图像上检测到的值进行匹配（使用精确匹配）。为了便于匹配，值将按以下方式规范化：

字母转换为大写
删除空格以及以下字符：”.”、”,”、”—”、”/”、”****“

步骤 2：公司名称和地址搜索

将文档图像上检测到的全部文本用于查询数据目录（data catalog）。随后，将从数据目录（data catalog）返回的 Name、Street、Postal code 和 City 值与图像上检测到的对应值进行比对（使用精确匹配）。

注意： 为获得尽可能理想的搜索结果，请确保数据目录（data catalog）中的相应列均已填写。尤其是在无法通过纳税人识别号（Tax ID）、National Tax ID 或 IBAN（国际银行账户号码）识别公司时，公司名称和地址信息尤为重要。

步骤 3：生成假设

基于在步骤 1 和步骤 2 中找到的公司，会生成一组假设。Classify By Company 活动会评估这些假设，并选择与文档图像上检测到的 field 值最可靠匹配的五条文档开票方公司记录和五条文档收件方公司记录。随后使用这些记录组成 25 个配对，每个配对视为一个单独的假设。训练好的模型将按可靠性对这些假设进行评分，选出最佳匹配的开票方–收件方配对。

注意：即使文档收件方公司数量非常少（例如只有一个文档收件方公司），仍然建议使用 Document Receiver Companies 数据目录（data catalog），因为这将防止将文档收件方公司误判为文档开票方公司。

如果 Document Issuer Companies 数据目录（data catalog）指定 Issuer Company ID 依赖于 Receiver Company ID，则会基于此关联生成假设（参见寻找公司配对）。

检测文档开票方与收件方公司的结果

在文档中检测到开票方和收件方公司后，将获得以下标识符：

Document Issuer Companies 数据目录中的开票方公司标识符
Document Receiver Companies 数据目录中的收件方公司标识符

注意： 如果 Document Issuer Companies 数据目录规定 Issuer Company ID 取决于 Receiver Company ID（参见查找公司配对），则文档开票方检测结果将包含与该 Receiver Company ID 相对应的 Issuer Company ID。

简介

快速入门

Skill Catalog

Skill Designer

Advanced Designer

运行时指南

租户管理员指南

扫描工作站指南

开发者指南

提高检测准确性的最佳实践

公司识别流程

第一步：唯一标识符搜索

步骤 2：公司名称和地址搜索

步骤 3：生成假设

检测文档开票方与收件方公司的结果

简介

快速入门

Skill Catalog

Skill Designer

Advanced Designer

运行时指南

租户管理员指南

扫描工作站指南

开发者指南

​提高检测准确性的最佳实践

​公司识别流程

​第一步：唯一标识符搜索

​步骤 2：公司名称和地址搜索

​步骤 3：生成假设

​检测文档开票方与收件方公司的结果

提高检测准确性的最佳实践

公司识别流程

第一步：唯一标识符搜索

步骤 2：公司名称和地址搜索

步骤 3：生成假设

检测文档开票方与收件方公司的结果