跳转到主要内容在从半结构化文档中提取数据时,可使用 Advanced Designer 处理复杂的文档集(例如包含众多差异显著的文档变体的集合)。文档处理流程将包括用于从半结构化文档中提取数据的活动。
假设你需要处理同一类型但版式各异的文档,但在 Skill 开发阶段无法提供所有文档变体。例如,当你创建一个用于处理不同供应商发票的 Skill 时,通常每个供应商都有自己的发票模板,并且未来必然会出现新的模板。如果你有足够的文档样本,可以先使用 Deep Learning activity,然后再使用 Fast Learning activity。
Deep Learning activity 负责处理无法预见的文档变体,而 Fast Learning activity 会学习客户提供的特定文档变体,从而进一步提升这些文档的处理质量。Fast Learning activity 还可以通过来自人工校验的 Online Learning 反馈回路进行训练。
- 打开 Advanced Designer。在起始页点击 Create Document Skill 创建新的 Skill。
- 在打开的 Documents 选项卡中上传用于配置该 Skill 的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 抽取的 field,为该 Skill 建立字段结构。在 Reference 部分对文档进行标注。
- 转到 Activities 选项卡,在文档处理流中添加适用于半结构化文档的 Deep Learning activity。
- 打开 Activity Editor 配置并训练 Deep Learning activity。请注意,用于训练该 activity 的文档集应至少包含 100 份已标注的文档。
- 返回 Activities 选项卡,在文档处理流中添加 Fast Learning activity。
- 打开 Activity Editor 配置并训练该 activity。
- 点击 Test Skill Using Selected Documents 测试你的 Skill,并分析结果。
- 当测试结果达到预期时,发布你的 Skill。
假设你的文档集中大多数文档变体可以通过 Deep Learning 和 Fast Learning 活动处理。但仍可能有少数文档包含嵌套表格,或在其他方面与用于训练的文档完全不同。
要处理这类文档,需要使用 Classification 活动将它们从主文档集中分离:
-
如果文档变体由不同公司出具,且文档上印有公司名称和/或地址,请使用 Classify By Company 活动。
例如,在处理来自不同银行的银行对账单时,你可以轻松提供这些银行的数据库列表,从而单独处理需要特殊处理的所有变体。
-
其他情况下,请使用 Classify By Text and Image 活动。该多模态分类技术利用文本、空间结构及图像模式来区分不同的文档变体,因此可以轻松识别与众不同的文档变体。
使用 IF 活动对文档处理流程进行分支,将处理质量较低的文档变体(例如前面提到的包含嵌套表格的文档)分离出来,然后使用 Extraction Rules 活动从此类文档中提取目标字段和表格。
- 打开 Advanced Designer。在开始页面点击 Create Document Skill 创建一个新的 Skill。
- 在自动打开的 Documents 选项卡中,上传用于配置 Skill 的文档。为确保文档集足以用于设置分类器,请为每种变体添加数量大致相同的文档。
- 上传图像后,转到 Fields 选项卡,通过创建并配置将由 Skill 提取的 field,为该 Skill 建立字段结构。在 Reference 部分为文档添加标签。
- 转到 Activities 选项卡,在文档处理流程中添加一个 Classify 活动。
- 打开 Activity Editor 并配置 Classify 活动。为此,为每种变体创建相应的类,将这些类分配给文档,并训练该活动。
- 返回 Activities 选项卡,通过添加 IF 活动以及用于处理每个文档变体的单独活动,为处理流程设置条件分支。
- 配置你创建的活动。
- 点击 Test Skill Using Selected Documents 测试你的 Skill,并分析结果。
- 当测试结果达到预期时,发布你的 Skill。
假设你需要从少量文档变体中提取数据,但没有足够的文档来训练 Deep Learning 活动;不过,你具备某些专家知识,能够概括每种文档变体的数据提取基本原则。比如,如果你正在创建一个用于处理不同年份税表的 Skill,你可以使用 Classify 活动将所有文档划分为不同变体。接下来配置一组 Extraction Rules 活动,其中每个活动都针对特定的文档变体进行定制。如果希望 Vantage 进一步训练你的 Skill,请添加 Fast Learning activity。
- 打开 Advanced Designer。在起始页点击 Create Document Skill 创建一个新的 Skill。
- 在打开的 Documents 选项卡中上传用于配置 Skill 的文档。为确保文档集足以训练分类器,请为每个变体添加数量大致相同的文档。
- 上传图像后,前往 Fields 选项卡,通过创建并配置将由 Skill 提取的 field,为该 Skill 设定字段结构。在 Reference 部分为文档打标。
- 前往 Activities 选项卡,将 Classify 活动添加到文档处理流程中。
- 打开 Activity Editor,并配置 Classify 活动。为此,请为每个变体创建相应的类,将这些类分配给文档,并训练该活动。
- 返回 Activities 选项卡并创建一个 Extraction Rules 活动。将其他 Extraction Rules 活动添加到此工作流项中。通过选择由 Classify 活动填充的 field,并将其值映射到各个 Extraction Rules 活动来设置分支条件。对于不需要特殊抽取规则的某些类别的文档,您也可以跳过此步骤。
- 配置已创建的抽取活动。
- 点击 Test Skill Using Selected Documents 测试 Skill,并分析结果。
- 当测试结果达到预期时,发布 Skill。