跳转到主要内容
在处理文档时,您可能需要将从文档中提取的数据与存储在数据目录(data catalog)中的记录进行核对。Data Catalog Lookup 规则可以帮助您自动完成此任务。通过这些规则,您可以:
  • 将发票和订单与 Vendor 和收货人数据库进行比对
  • 使用匹配的数据目录记录自动填充缺失的文档字段,例如:
    • 订单号和金额
    • 公司详细信息
    • 商品和服务的名称与描述
有关用于 Document skill 的数据目录的更多信息,请参见使用数据目录 要创建数据目录查找规则,请执行以下步骤:
  1. 在字段属性中单击 New Rule
  2. 在打开的对话框中,选择 Data Catalog Lookup 作为规则类型,然后单击 Next
  3. Data Catalog for Lookup 下拉列表中,选择用于验证文档字段值的数据目录。 注意: 如果需要将值与多个数据目录进行比较,请为每个数据目录分别创建规则。
  4. 选择数据目录后,将显示下表: Data Catalog Lookup 配置 Catalog Column 列出了所选数据目录中的列。
  5. Skill Field 列中,使用下拉列表将每个目录列映射到相应的提取文档字段。 如果不需要搜索某个字段,或者该字段在文档中不存在,请将其留空。
    注意: 单个规则只能引用来自一个可重复组中的字段。若要搜索来自多个可重复组的值,请为每个组创建单独的规则。
  6. Action 列中,定义每个字段对的处理方式:
    • Exact Comparison。 用于匹配唯一值,例如纳税人识别号(TIN)或产品标识符。
    • Fuzzy Comparison。 用于可能略有差异的值,例如街道名称或组织地址。Fuzzy Comparison 的阈值为 30%,这意味着必须匹配到值的 70%。比较不区分大小写。
    • Get Value from Data Catalog。 将目录中的值复制到相应的文档字段。仅当规则中至少有一对字段使用 Exact 或 Fuzzy Comparison 时,此选项才可用。
  7. (可选)在 Rule Name 中编辑规则名称,然后单击 Save

创建规则之后

  • 数据目录(Data Catalogs) 部分,对应目录下会显示指向该 Skill 的链接。
  • 该规则会自动应用到在设置过程中已完成映射的所有文档 field。
  • 现有查找规则仅在 field 抽取阶段运行。如果用户手动编辑 field 的值,自动查找不会针对新值重新运行。
    • 若要再次触发这些规则,请向该 Skill 的文档集上传新文件,或将文档发送至人工校验。

匹配行为和可能出现的错误

数据目录(data catalog)查找规则只有在比较(精确或模糊)的结果返回不超过一条匹配记录时才能可靠运行。否则,可能会发生以下错误之一:
  • 未找到记录。 没有任何目录记录符合指定的比较条件。
  • 找到的记录过多。 有多于一条的目录记录匹配。
为避免此类错误,请确保至少有一个映射的 field 所使用的值是唯一的,或不可能匹配到多条目录记录。

在数据目录(data catalog)中手动查找 field 值

要在数据目录(data catalog)中查找 field 值,请按照以下步骤操作:
  1. 单击已配置规则的 field 值框右侧的 Search 按钮。
  2. 在弹出的搜索栏中,输入要查找的值(完整或部分,至少 3 个字符)。对于模糊搜索(Fuzzy search),阈值为 30%,也就是说最多允许 30% 不匹配,至少 70% 需被找到。搜索不区分大小写。系统将在所选数据目录(data catalog)的所有 fields 中进行搜索。
  3. 在搜索结果中选择正确的值,方法是用鼠标左键单击该值。所选目录值将复制到在规则设置期间链接到该目录列的所有文档 fields 中。
使用目录记录填充文档 field 后,将禁用手动编辑。如果该值不正确,请再次执行查找并选择其他记录。文档 fields 将更新为新选择的目录值,规则也会重新运行。 如果在数据目录(data catalog)中找不到所需值,请单击 Clear Document Fields 或按 Ctrl+Del。这将恢复规则设置期间指定的 fields,使其使用从文档中提取的值,而不应用任何数据目录(data catalog)值。

另请参阅