跳转到主要内容
某些公司的文档可能具有独特且复杂的结构。要从此类文档中正确提取数据,需要设置特定公司的提取活动。可以在单个文档技能中通过使用 Classify By Company 活动来实现这一点。此活动使用数据目录按公司对文档进行分类。

使用数据目录

数据目录是一组包含特定信息的数据集。例如,它可以是与公司相关的信息,如公司名称、地址、银行账户号码等。数据目录可用于在文档中查找任意公司,例如供应商、收货人、银行、航运公司等。可以使用结构与数据目录相同的 CSV 文件中的数据来填充数据目录。有关使用数据目录的更多信息,请参阅 Skill Designer Guide 中的 “Using data catalogs” 一节。 当使用 Classify By Company 活动处理文档时,系统会在已连接的数据目录中搜索特定的公司数据。结果是一个唯一的公司标识符,该标识符会记录在技能中相应的字段中。然后使用此公司标识符来配置特定于该公司的文档处理算法。对于 Classify By Company 活动而言,公司标识符是唯一必需的字段;但是,可以使用存储在数据目录中的公司信息填写更多字段,从而避免为这些字段配置额外的提取活动。为此,需要将数据目录中的列映射到技能中的相应字段。 Classify By Company 活动使用类型为 Document Issuer Companies 的数据目录,这些目录在所连接的 Vantage 服务器上可用。 在某些情况下,可能希望在文档中查找一对相关公司(例如货物的供应方和采购方)。要实现这一点,请添加第二个可选的数据目录,类型为 Document Receiver Companies。如果需要查找两个彼此无关联的公司,可以使用此选项,或者添加两个 Classify By Company 活动。

查找公司对

您公司中的每个业务部门可能都有自己的供应商数据库。如果某个供应商与多个业务部门合作,它将在数据库中拥有多个具有不同 ID 的记录。在这种情况下,您需要找到与该业务部门对应的那个供应商的精确记录。为此,请在 Document Issuer Companies 数据目录中填写 Company Correlation ID 列。之后,搜索将查找这样的一对公司:其中文档开票方的 Correlation ID 与文档接收方的 ID 匹配。如果某些 Correlation ID 缺失,则具有匹配 Correlation ID 的公司对将被优先考虑。 在搜索公司对时,会基于供应商与业务部门之间的关联生成匹配假设。Classify By Company 活动会选出五条与文档图像上的字段值最可靠匹配的文档接收方公司记录。然后,对于每条记录,该活动会选择五条 Company Correlation ID 与 Receiver Company ID 完全相同的文档开票方公司记录。如果数据目录中不存在任何 Company Correlation ID 与 Receiver Company ID 完全相同的记录,则会改为选择 Company Correlation ID 为空的记录。
重要! 若要找到有效的公司对,您必须为所有记录填写正确的 Company Correlation ID。
最终,将选出匹配度最高的开票方–接收方公司对。有关公司检测的更多信息,请参阅 How company detection works 如果您的文档开票方公司可能与任意文档接收方合作,则无需在 Document Issuer Companies 数据目录中填写 Company Correlation ID 列,搜索将会考虑所有可能的公司对。

数据目录类型

文档开票方公司数据目录

NameDescription
Issuer Company ID通过检测文档开票方获得。在外部信息系统中标识文档开票方。

注意: 如果公司所有业务单元使用相同的客户数据库,这是数据目录条目的唯一标识符。否则,数据目录中的条目由 Issuer Company IDCompany Correlation ID 的组合唯一标识。
Company Correlation ID公司的业务单元标识符。

注意: 如果公司的业务单元使用不同的客户数据库,则必须填写此数据目录列,因为数据目录条目的唯一键将是 Issuer Company IDCompany Correlation ID 的组合。有关更多信息,请参阅查找一对公司
Tax ID这些列可用于搜索公司的唯一标识符。
National Tax ID这些列可用于搜索公司的唯一标识符。
IBAN这些列可用于搜索公司的唯一标识符。
Name这些列可用于按公司名称和地址进行搜索。
Postal Code这些列可用于按公司名称和地址进行搜索。
Street这些列可用于按公司名称和地址进行搜索。
City这些列可用于按公司名称和地址进行搜索。
State or Province这些列不参与公司检测过程,只能用于填充文档字段。
Country这些列不参与公司检测过程,只能用于填充文档字段。
Bank Account这些列不参与公司检测过程,只能用于填充文档字段。
Bank Code这些列不参与公司检测过程,只能用于填充文档字段。

文档接收方公司数据目录

NameDescription
Receiver Company ID通过检测文档接收方获得。在外部信息系统中标识文档接收方,是数据目录中条目的唯一键。
Tax ID此列可用于按公司唯一标识符进行搜索。
Name这些列可用于按公司名称和地址进行搜索。
Postal Code这些列可用于按公司名称和地址进行搜索。
Street这些列可用于按公司名称和地址进行搜索。
City这些列可用于按公司名称和地址进行搜索。
State or Province这些列不参与公司识别过程,仅用于填充文档字段。
Country这些列不参与公司识别过程,仅用于填充文档字段。