跳转到主要内容
要将包含多个文档的文件中的页面流拆分成可用于后续处理的独立文档,请创建 Document Splitter 技能。

拆分同一类型的文档

假设您有一个文件,其中包含多份同一类型的文档(例如某一时间段内来自同一供应商的一组发票)。每张发票都有自己的编号,并且可能在上面印有页码。这些数据以及其他信息都可以用于将这些文档彼此拆分。您可以使用 Extraction Rules 活动来配置发票号码和页码的提取。若某个文档的首页与其他页面有明显区别,您也可以使用 Classify 活动。然后,您可以使用 Splitter Script 活动来分析提取出的值,并确定当前页面是否是某个新文档的首页。

分离文档并移除附页

假设要处理的文档附带了说明性文档,这些说明性文档需要保存,但不应从中提取数据。在这种情况下,可以使用 Classify 活动将页面分类为所需类型的文档及其附页。也可以使用 Extraction Rules 活动来检查页面上是否存在任何有价值的数据。不包含任何有价值数据的页面很可能是附页。然后,可以使用 Splitter Script 活动将附页附加到各个文档,或将其放入单独的文档中。

拆分文档并确定其类型

假设您有一个文件,其中包含多个不同类型的文档(例如,一份贷款申请以及随附的身份文档、收入证明、银行对账单、水电费账单和其他文档)。在这种情况下,您可以使用 Classify 活动对每个页面进行分类,并使用 Extraction Rules 活动提取数据,用于判定当前页面是否为新文档的首页。然后,您可以使用 Splitter Script 活动来设置规则,以拆分文档并确定其类型。

重新排序页面并删除空白页面

假设您需要对页面重新排序,或删除因杂乱扫描产生的空白页或无效页。显然,只有当页面包含一些指示正确顺序的数据(例如页码)时,才能进行重新排序。在这种情况下,您可以创建一个字段来提取页码。您还可以创建一个字段,用于检测页面上的任意文本,以便进一步将空白页识别为无效页并删除。使用 Splitter Script 活动,您可以根据页码重新排序页面,并创建一个单独的文档,用于包含所有空白或无效页面。 文档拆分器工作流

创建文档拆分技能的步骤

  1. 打开 ABBYY Vantage Advanced Designer,在起始页面单击 Create Splitter Skill 创建一个新的文档拆分技能。
  2. 在 Documents 选项卡上上传文件。每个文档集应包含属于同一业务事务的文件。源文件集将被转换为单独的页面。请注意,除 Splitter Script 活动外,所有活动都会分别处理每个页面。
  3. 配置文档处理流程,以提取数据,从而帮助确定该事务中每个页面的文档类型,并找出一个文档结束、另一个文档开始的位置。 a. 如果页面流中包含多种类型的文档,或者每个文档的首页与其他页面有明显差异,请设置 Classify 活动以对页面进行分类。 b. 如有需要,标注字段或添加其他活动,以提取可用于拆分同一类型文档或确定文档类别的数据。
  4. 通过在 Splitter Script Properties 窗格中添加文档类型并配置脚本来设置 Splitter Script 活动,该脚本将把页面流转换为一组文档。脚本可以访问一个事务中的所有页面,并可分析其他活动生成的数据,以确定哪些页面是新文档的首页。
  5. 单击 Test Skill Using Selected Documents 测试该技能,并分析获得的结果。
  6. 当您对结果满意时,发布该技能。