跳转到主要内容
数据目录中记录的详细程度和质量会显著影响公司识别的准确性。文档的开票方和接收方记录与从文档图像中提取的文本越接近、越一致,文档开票方和接收方公司就能被越准确地识别出来。

提高检测准确性的最佳实践

为确保检测结果尽可能准确,请确保:
  • 已填写唯一的公司标识符。填写唯一值列(税号、国家税号、IBAN)将显著提高正确检测的概率,因为这些值对每家公司都是唯一的。
  • 不存在重复的公司记录。消除重复记录将提高公司被正确检测到的概率。
  • 不存在不相关的记录。数据目录中过时或无效的记录可能会由于各字段值之间的偶然相似而导致公司被错误检测。
  • 每条公司记录的所有字段均已填写。尽可能为公司提供准确且完整的信息。信息越准确,正确检测公司的概率就越高。

公司识别流程

公司识别包括以下步骤: 以下字段的值被视为唯一的公司标识符:
  • 税号
  • 国家税号
  • IBAN
Classify By Company 活动使用关键字和正则表达式在文档图像中搜索上述字段的值。如果未指定任何字段,则跳过此步骤。 在文档图像上检测到的税号、国家税号和 IBAN 值用于查询数据目录。接下来,将从数据目录中获得的税号、国家税号和 IBAN 值与在图像上检测到的值进行匹配(使用精确匹配)。 为进行匹配,值将按如下方式进行规范化:
  • 将字母转换为大写
  • 删除空格和以下字符:”.”, ”,”, ””, ”/”, ”****“
在文档图像上检测到的全部文本将用于查询数据目录。 接下来,将从数据目录中获取的 Name、Street、Postal code 和 City 字段的值与图像上检测到的对应值进行匹配(使用精确匹配)。
注意: 为了获得最佳搜索结果,请确保数据目录中的相应列已填写完整。尤其是在无法通过税号、国家税号或 IBAN 识别公司时,公司名称和地址信息尤为重要。

步骤 3:生成假设

基于在步骤 1 和 2 中找到的公司,将生成一组假设。Classify By Company 活动会评估这些假设,并选出五个文档开票方的公司记录和五个文档收票方的公司记录,这些记录与在文档图像上检测到的字段值最可靠地匹配。然后使用这些记录形成 25 对组合,每一对都被视为一个单独的假设。经过训练的模型随后会根据其可靠性对这些假设进行评分,选择最佳匹配的开票方–收票方组合。
注意: 即使文档收票方公司的数量非常少(例如,只有一个文档收票方公司),仍然建议使用 Document Receiver Companies 数据目录,因为这可以防止将文档收票方公司错误检测为文档开票方公司。
如果 Document Issuer Companies 数据目录指定开票方公司 ID 依赖于收票方公司 ID,则会基于这种关联生成假设(请参阅查找公司配对)。

检测文档开票方和收票方公司的结果

在文档中检测到开票方和收票方公司后,将会获得以下标识符:
  • 文档开票方公司数据目录中的开票方公司标识符
  • 文档收票方公司数据目录中的收票方公司标识符
注意: 如果文档开票方公司数据目录指定开票方公司 ID 依赖于收票方公司 ID(参见查找公司对),则文档开票方检测结果中将包含与该收票方公司 ID 相对应的开票方公司 ID。