跳转到主要内容
当一个文档技能需要处理在字段位置上差异较大的文档(即使它们属于同一类型)时,配置字段提取属性可能会比较困难。比如,同一个技能可以用于处理来自不同供应商的发票,而相同的字段可能会根据供应商的不同出现在不同的位置。为了改进此类技能的提取质量,您可以选择将其文档划分为不同的类别。每个类别是针对单一文档类型、具有共同属性的文档子组,并为每个类别分别设置提取活动。 当您需要提升某个类别的提取质量时,也可能需要将文档划分到不同类别中。例如,单个技能可用于处理由不同银行编制的银行对账单。其中某一种对账单类型的提取质量可能低于其他类型。为了提高该技能的提取质量,您可以将这些对账单划分为不同类别,并为提取质量不理想的类别设置一个 Extraction Rules 活动。 “按文本和图像分类”活动旨在将某个技能的文档划分到不同类别中,以便为这些类别分别创建并配置各自独立的提取活动。

设置概述

要创建并设置一个“按文本和图像分类”活动,请按照以下步骤操作:
  1. 在文档处理流程中创建一个“按文本和图像分类”活动。
  2. 上传图像、创建类别,并为文档分配预期类别。
  3. 训练该活动并分析训练结果。
  4. 如果需要改进分类结果,请调整属性设置。

使用 Activities 选项卡进行创建和设置

在工作流中创建一个 Classify By Text and Image 活动。创建后,系统会在技能结构中创建一个用于记录分类结果的字段。该字段的值将用于对文档进行分类。此字段会显示在技能的字段结构中,但会被标记为隐藏,且不可编辑。
注意: Classify By Text and Image 活动不会返回类别的置信度值,只会返回类别名称。
要进入 Activity Editor,请单击 Activity Editor,或双击该活动块。

使用 Activity Editor 进行配置

步骤 1:上传文档

通过单击工具栏中的 Upload 并选择一种上传方式,上传用于设置该活动的文档: a. Upload Documents… 使用打开的对话框选择相应的文档。所选文档将显示在 No Class 列表中。 b. Upload Folder Like Classes… 使用打开的对话框选择一个包含图像子文件夹的文件夹。每个子文件夹应只包含单一类别的图像。以这种方式上传文档会自动创建与这些子文件夹相对应的类别,并将各自子文件夹中的文档分类到该类别中。这样,您无需在 Activity Editor 中手动创建类别。

步骤 2:创建类

通过单击工具栏中的 Create ClassAssign class 窗格中的 Create,创建与正在处理的不同类型文档相对应的类。 如果您的文档是通过 Upload folder like classes 上传的,请确保已创建所有必需的类。

步骤 3:对文档进行分类

使用以下任一方法对文档进行分类:
  • 在列表中选中属于同一类别的所有文档,然后在 Assign class 窗格中单击相应的类别名称。
  • 如果尚未创建合适的类别,请在列表中选中所有合适的文档,然后通过单击工具栏中的 Create ClassAssign class 窗格中的 Create 来创建类别。
  • 选中属于同一类别的所有文档,然后将它们拖动到与该类别对应的列表中。

其他选项

如有需要,可以使用工具栏中的 Rotate 下拉菜单更改文档页面的朝向。您可以选择以下选项之一:Rotate All Pages LeftRotate All Pages RightRotate All Pages 180º 要切换视图模式,请使用工具栏中的以下按钮:
  • 列表视图:以列表形式显示文档
  • 缩略图视图:以缩略图形式显示文档
要查看在缩略图视图中显示的文档的完整图像,请使用预览按钮。

训练分类器并查看分类结果

文档完成分类后,使用 Train Activity(训练活动)按钮来训练 Activity。训练结束后,与分类结果相关的统计信息将显示在 Results(结果)选项卡中。分析这些统计信息有助于识别存在问题的类别,并评估分类器的整体质量。

常规统计信息

顶部窗格显示该活动中所有文档和类别的常规统计信息。这些统计信息有助于评估分类器的整体质量:
  • accuracy(准确率)。预期类别与程序分配的类别相匹配的文档所占百分比。
  • F-Measure(F 值)。用于评估分类结果的精确性和完整性。
  • Recall(召回率)。被正确分类为某一特定类别的文档数量与该类别所有文档数量之比。
  • Precision(精确率)。被正确分类为某一特定类别的文档数量与所有被分类为该类别(包括正确和错误)的文档数量之比。

特定类别统计信息

在 Classes 窗格中,您可以查看每个类别的统计信息。对于每个类别,界面会显示预期类别与程序实际分配的类别相匹配的文档所占百分比,以及类别分配正确和错误的文档数量。要查看类别分配错误的文档,请在 Classes 窗格中选择相应的类别,并展开以红色显示的错误分配文档列表。分析这些文档有助于您理解程序为何会为某个特定文档分配与预期类别不同的类别。如果一开始预期类别本身就被错误指定,就经常会出现这种情况,例如当不同类别的文档过于相似时。

纠正分类错误

预期类别不正确

分类错误的一个可能原因是预期类别分配不正确。要修复此类错误,只需为文档分配正确的预期类别。在 Results 选项卡中,选择一个被错误分配给文档的类别。展开具有错误分配类别的文档列表,选择该类别的所有文档,然后在 Assign class 窗格中的列表中为它们分配正确的预期类别。

不同类别中的相似文档

分类错误的另一个可能原因是,将非常相似的文档划分到了不同的类别中。如果分类器会混淆两个相似文档变体所属的类别,那么很可能这些变体应归入同一个类别,并使用单个抽取活动。在这种情况下,请检查类别数量,并将被混淆的类别合并为一个。随后,应在 Extraction Rules 活动中通过规则来描述它们之间的差异。

训练数据不足

分类错误的另一个可能原因是某个类别中的文档数量不足。在这种情况下,您可以通过向该类别中添加更多文档来提高分类器的质量。 在添加新文档或更改类别之后,您需要重新训练您的分类器。