跳转到主要内容
要将包含多个文档的文件中的页面流拆分为可进行后续处理的独立文档,请创建一个 Document Splitter Skill。

分离同类型文档

假设你有一个文件,包含多个同一类型的文档(例如,某个 Vendor 在某一时期开具的一组发票)。每张发票都有自己的编号,并且可能印有页码。可以利用这些信息及其他数据来将文档彼此区分。你可以使用 Extraction Rules 活动来配置对发票号码和页码的提取;如果文档的第一页与其他页面有显著差异,也可以使用 Classify 活动。随后,你可以使用 Splitter Script 活动分析提取到的值,以确定当前页是否为新文档的第一页。

拆分文档并移除附录

假设待处理的文档附带了说明性文档,这些文档需要存储,但不应从中提取任何数据。在这种情况下,您可以使用 Classify 活动将页分类为所需类型的文档及其附录。您还可以使用 Extraction Rules 活动检查某个页上是否存在有价值的数据。没有任何有价值数据的页很可能是附录页。然后,您可以使用 Splitter Script 活动将附录页附加到各个文档,或将其放入单独的文档中。

分离文档并确定其类型

假设你有一个文件,其中包含多种类型的多个文档(例如,一份贷款申请,以及随附的身份凭证、收入报表、银行对账单、水电费账单等)。在这种情况下,你可以使用 Classify 活动对每个页进行分类,并使用 Extraction Rules 活动提取用于判断当前页是否为新文档首页所需的数据。然后,你可以使用 Splitter Script 活动来设置分离文档并确定文档类型的规则。

重新排序页并移除空白页

假设你需要对页重新排序,或移除因随意扫描而产生的空白或无用页。显而易见,只有当这些页包含可指示正确顺序的数据(例如页码)时,才能进行重新排序。在这种情况下,你可以创建一个字段来提取页码。你也可以创建一个字段以检测页上的任意文本,从而进一步将空白页判定为无用页并丢弃。使用 Splitter Script 活动,你可以根据页码重新排序页,并创建一个单独的文档来包含所有空白或无用页。 Document Splitter Workflow

创建 Document Splitter Skill 的步骤

  1. 打开 ABBYY Vantage Advanced Designer,在起始页点击Create Splitter Skill创建新的 Document Splitter Skill。
  2. 在 Documents 选项卡上传文件。每个文档集应包含单个业务处理事务的文件。源文件集将被转换为独立的页。请注意,除 Splitter Script 活动外,所有活动都会分别处理每一页。
  3. 配置文档处理流程,以提取用于确定处理事务中每一页的文档类型并识别文档起止位置的数据。 a. 如果源页流包含多种类型的文档,或每个文档的首页与其他页存在显著差异,请设置 Classify 活动对页进行分类。 b. 如有需要,标注 field 或添加其他活动,以提取可用于分隔同类型文档或确定文档类别的数据。
  4. Splitter Script Properties窗格中添加文档类型并配置脚本,以将页流转换为一组文档,从而设置 Splitter Script 活动。该脚本可访问处理事务的所有页,并可分析其他活动的数据,以确定哪些页是新文档的首页。
  5. 点击Test Skill Using Selected Documents测试你的 Skill,并分析结果。
  6. 当你对结果满意后,发布你的 Skill。