跳转到主要内容
您可以通过以下方式之一添加文本field:
  • 在文档图像上,单击 field 的值(鼠标悬停时会以绿色高亮),或在该值周围框选一个矩形区域,以指定 field 区域。随后,新的 field 将显示在数据表单中。您可以在数据表单中双击它,或在 field 属性中单击它来修改 field 名称。三击可选中整个名称。要打开 field 属性,请单击 Field options 按钮。
  • 在工具栏上单击 Add Field,然后在图像上标记 field 区域,将新 field 添加到数据表单中。这样会将所选区域内检测到的数据指定为该 field 在数据表单中的值。
您还可以在数据表单中为现有 field 添加新的文本 field 区域:在数据表单中选择相应的 field,然后单击其在文档图像上的位置。若一个 field 需要包含多个单词,请通过标记整个 field 区域来选择多个单词。

添加具有多个区域的文本字段

出于以下原因,某些文本字段在单个文档上需要多个区域:
  • 某些字段值可能在一行文本开始并在另一行结束。
  • 某些字段值可能在一页开始并在另一页结束。
要添加具有多个区域的文本字段,请执行以下操作:
  • 使用上述方法之一添加一个字段。
  • 按住 Shift 键,为新增的字段选择其他区域。
文本字段的区域也可以进行标注:
  • 位于不同的页上
  • 位于某个字段的另一处区域内(此情况下,内部区域将以更深的颜色高亮显示;若获得焦点,则会以黄色高亮)。

文本 field 的通用属性

  • Field name。特定 Skill 中该 field 的唯一名称。Field name 不能包含句点、逗号、斜杠、冒号、星号、问号、引号、小于号、大于号或竖线等特殊字符。Field name 的最大长度为 90 个字符。
  • Data type。field 所包含的数据类型。这是影响识别准确性的重要文本 field 参数。每种数据类型对 field 值都有各自的限制,从而缩小可识别字符的范围,提高数据提取的准确性。
Data typeDescription
Text可包含拉丁和西里尔字母、数字、表意文字以及特殊字符。
Date任意格式的日期和时间。可用作分隔符的字符包括:点号 (.)、空格 ( )、连字符 (-)、反斜杠 () 和正斜杠 (/)。
Number可包含数字、小数分隔符以及百分号 (%)。以下字符可用作小数分隔符:点号 (.)、逗号 ( , )、连字符 (-)、等号 ( = ) 和空格 ( )。以下字符可用作千位分隔符:点号 (.)、逗号 ( , )、单引号 (’) 和空格 ( )。
Money同时包含数值和币种符号。币种符号可位于金额之前或之后。
示例: 小写字母 “l”、大写字母 “I” 和数字 “1” 的外观可能相似。如果在 Number 或 Currency Amount field 中检测到类似字符,将被识别为 “1”,因为此类 fields 不允许包含字母。
  • Allow multiple items。指定该 field 是否为可重复。可重复的 field 实例可以引用多个相同类型的对象,例如子女姓名或账户号。
  • Required field。指定 field 的值不能为空。启用此属性会在页上添加验证规则。如果提取后该 field 为空,document 将因错误被发送至人工校验。
  • Key field。指定该 field 的值是否用于搜索 documents。
  • Dimension field。指定该 field 的值是否用于在 Skill Monitor 中获取有关 Skill 处理事务的详细信息。

文本外观

此属性组与该字段中预期出现的字符外观有关。
  • 文本来源。指定该字段是否只包含印刷体字符、只包含手写体字符,或两者皆可。如果你通过在文档上标注矩形区域来添加字段,此属性的值将根据该区域中检测到的字符类型设置。如果你通过单击 Add Field 添加字段,此属性的值默认为 Printed
你可以在此处查看支持手写文本识别的所有语言列表。
注意: 对于新的 Document skills,默认启用手写体识别。要将其禁用或重新启用,单击技能名称右侧的技能设置图标,然后转到 Languages 选项卡,在 Text Appearance 部分选择 Handwritten 选项。
  • 消除字段背景。如果字段带有边框、单字符方格或占位文本,可使用此选项提升识别准确性。启用该选项后,必须上传空白表单文档作为背景识别模板,并在空白表单上标注相应字段。空白表单文档将显示在 Document Set 中,并带有图标标记。
  • 特殊字体。如果预计该字段包含用特定字体输入的文本,你可以使用此选项选择字体类型,以提升识别准确性。也可以选择多种字体。

支持的字体

字体说明字体示例
Fax传真机常用字体。Fax Font
Gothic以哥特体排印的文本。Gothic Font
Index仅包含以邮政编码风格书写的数字的一组特殊字符。Index Font
Matrix printer使用点阵打印机打印的文本。Matrix Font
MICR CMC-7一种特殊的 MICR 条码字体(CMC-7)。CMC-7 Font
MICR E-13B一组使用磁性墨水打印的特殊数字字符。MICR(Magnetic Ink Character Recognition)字符常见于多种文档,包括个人支票。E-13B Font
OCR-A为 Optical Character Recognition (OCR) 设计的等宽字体,广泛用于银行、信用卡公司等机构。OCR-A Font
OCR-B为 Optical Character Recognition (OCR) 设计的字体。OCR-B Font
Receipt识别器将按收据常见的低质量文本进行处理,多为等宽或常规字体。Receipt Font
Typewriter打字机文本。Typewriter Font

文本 field 的其他属性

其他属性取决于为该 field 指定的数据类型。

文本

Value” 设置组:
  • 最大长度。field 中允许的最大字符数。如果提取值中的字符数超过该长度,将显示错误消息。如果流程中存在人工校验阶段,Document 将被发送到人工校验。
  • 正则表达式。该选项允许你添加正则表达式(即对字段值结构的形式化描述)。使用正则表达式配置的 field 可以包含字母、数字以及数据表单中规定的其他字符。
使用正则表达式可以提高提取准确性,即通过在文本中匹配模式来限制有效字符集,从而影响提取结果。例如,如果某个文本 field 仅包含数字,你可以指定一个仅包含数字的正则表达式来描述该 field 的结构。在这种情况下,识别该 field 时,程序将尝试将每个字符识别为数字。你还可以为特定的电话号码格式指定正则表达式(示例 1),或检查该 field 是否包含 2 个单词且其中一个是数字,例如 50 lbs(示例 2): 示例 1(适用于如 1-(234)-567-8900 或 2 (987) 654 3211 的电话号码)
/^(1|2)(\-|\s)\([\d]{3}\)(\-|\s)[\d]{3}(\-|\s)[\d]{4}$/
示例 2(适用于重量值 50lb/50lbs/50Lb/50Lbs/50 lb/50 lbs 等)
/^[\d]*(\s)?(L|l)b(s)?$/
注意: 正则表达式不会影响对 PDF 文档的文本识别。

日期

“值可包含”设置组:
  • “时间”。适用于可能同时包含时间的日期 field。如果不允许时间值,识别时将不会提取。
  • “星期几”。允许在日期 field 中指定星期几。如果不允许星期几,识别时将不会提取。
  • “月份名称”。允许将月份以文字形式指定。
“可接受的组件顺序”设置组允许您从以下选项中选择合适的日期格式:日-月-年、月-日-年、年-月-日。您也可以同时指定多种格式。若检测到的日期格式与您指定的不一致,文档将带有错误发送至人工校验。 “可接受的日期”设置组允许您指定有效日期范围。您可以通过选择文档处理之日之前和之后的若干个月来设定有效范围。月份数应为整数。系统将使用规则检查日期是否处于该范围内;若不在,规则将显示错误,文档将被发送至人工校验。

数值

Value”设置组用于指定检测到的值属于哪种数值类型(整数或小数),以及此 field 中可能检测到的数值格式。如果该 field 的值不满足指定要求,文档将被发送至人工校验。
  • Integers only 仅限整数。启用此选项时,如果在 field 中检测到带分隔符的数字,这些分隔符将被视为千位分隔符。
  • Fractional part may contain more than two digits 小数部分可超过两位。如果预期提取值的小数部分多于两位,请启用此选项。以下字符可用作小数分隔符:点号 (.)、逗号 ( , )、连字符 ( - )、等号 ( = ) 和空格 ( )。
  • May have negative values 允许为负数。该选项允许提取的值为负数。负值可以用减号或括号表示。
  • May include ’%’ symbol 可包含“%”符号。该选项允许在值的前或后包含百分号字符。
Number must be within interval”设置组用于指定一个区间,值必须落在该区间内才视为有效。区间通过指定最小值和最大值来设定。这些值可以是整数或小数,也可以为负数。随后将使用规则检查该值是否在指定范围内;如果不在,规则将显示错误,文档将被发送至人工校验。

Money

Money 属性与 Number 属性相同,唯一的例外是 Money field 不允许包含百分号字符。

另请参阅