跳转到主要内容
您可以通过以下任一方式添加文本字段:
  • 在文档图像上指定字段区域:单击字段的值(鼠标悬停时会以绿色高亮显示),或者在字段值周围框选一个矩形区域。之后,新字段会出现在数据表单中。您可以在数据表单中双击字段名称,或在字段属性中单击字段名称来修改它。连续单击三次字段名称可以选中整个名称。要打开字段属性,请单击 字段选项 按钮。
  • 在工具栏上单击 添加字段,向数据表单添加新字段,然后在图像上框选字段区域。这样会将选定区域中检测到的数据指定为数据表单中该字段的值。
您还可以通过在数据表单中选择相应字段,然后在文档图像上单击其位置,为数据表单中的现有字段添加新的文本字段区域。如果某个字段需要包含多个单词,请通过框选整个字段区域来选择多个单词。

添加具有多个区域的文本字段

在同一份文档上,有些文本字段需要标注多个区域,原因如下:
  • 某些字段值可能从一行文本开始,在另一行结束。
  • 某些字段值可能从一个页面开始,在另一个页面结束。
要添加具有多个区域的文本字段,请执行以下操作:
  • 使用上文描述的方法添加一个字段。
  • 按住 Shift 键,并为已添加的字段选择额外的区域。
文本字段的区域还可以按以下方式进行标注:
  • 位于不同页面上
  • 位于字段的另一个区域内(在这种情况下,内部区域会以较深的颜色高亮显示,如果其处于焦点状态,则会以黄色高亮显示)。

文本字段的一般属性

  • 字段名称。在特定技能中字段的唯一名称。字段名称不能包含句点、逗号、斜杠、冒号、星号、问号、引号、小于号、大于号或竖线等特殊字符。字段名称的最大允许长度为 90 个字符。
  • 数据类型。字段中所包含的数据类型。这是一个对文本字段至关重要的参数,因为它会影响识别准确性。每种数据类型对字段值都有各自的限制,从而缩小每个字符可能的取值范围,使数据提取更加精确。
数据类型描述
Text可以包含拉丁字母、西里尔字母、数字、表意文字以及特殊字符。
Date以任意格式表示的日期和时间。可以用作分隔符的字符包括:点号 (.)、空格 ( )、连字符 (-)、反斜杠 () 和正斜杠 (/)。
Number可以包含数字、小数分隔符和百分号 (%)。以下字符可用作小数分隔符:点号 (.)、逗号 (,)、连字符 (-)、等号 (=) 和空格 ( )。以下字符可用作千位分隔符:点号 (.)、逗号 (,)、单引号 (’) 和空格 ( )。
Money同时包含数值和货币符号。货币符号可以放在金额之前或之后。
示例: 小写字母 “l” (L)、大写字母 “I” (i) 和数字 “1” 的外观可能非常相似。如果在 Number 或货币金额字段中检测到一个看起来类似的字符,它将被识别为 “1”,因为此类字段中不能包含字母。
  • 允许多个项。指定该字段是否为重复字段。重复字段的实例可以引用多个相同类型的对象。例如,子女的姓名或账户号码。
  • 必填字段。指定字段值不能为空。启用此属性会向页面添加验证规则。如果字段在提取后为空,该文档将因错误被发送至人工审核。
  • 关键字段。指定该字段的值是否用于搜索文档。
  • 维度字段。指定该字段的值是否用于在技能监控中获取有关技能事务的详细信息。

文本外观

此属性组用于设置字段中预期出现字符的外观。
  • 文本来源。指定字段中是只能包含印刷体字符、只能包含手写体字符,还是两者都可以。如果通过在文档上标记一个矩形区域来添加字段,则此属性的取值取决于在该区域中检测到的字符类型。如果通过单击 添加字段 来添加字段,则此属性的默认值为 印刷体
您可以在此处查看支持手写文本识别的所有语言列表。
注意: 对于新建的文档技能,手写文本识别默认处于启用状态。若要禁用或重新启用此功能,请单击技能名称右侧的技能设置图标,然后转到 Languages 选项卡,并在 Text Appearance 部分中选择 手写识别 选项。
  • 消除字段背景。如果字段具有边框、单个字符的方框或占位文本,可以使用此选项提高识别精度。启用此选项后,必须上传空白表单文档,将其用作背景识别的模板,并在空白表单上标注相应的字段。空白表单文档会显示在 Document Set 中,并带有图标标记。
  • 特殊字体。如果预期字段包含使用特定字体输入的文本,可以使用此选项选择字体类型,从而提高识别精度。也可以选择多种字体。

支持的字体

字体描述字体示例
Fax一种传真机常用的字体。Fax 字体
Gothic以 Gothic 字体印刷的文本。Gothic 字体
Index一套特殊字符集,仅包含以邮政编码风格(ZIP code)书写的数字。Index 字体
Matrix printer使用点阵打印机打印的文本。Matrix 字体
MICR CMC-7一种特殊的 MICR 条形码字体(CMC-7)。CMC-7 字体
MICR E-13B一套使用磁性墨水打印的特殊数字字符。MICR(Magnetic Ink Character Recognition,磁性墨水字符识别)字符常见于多种文档上,例如个人支票。E-13B 字体
OCR-A为 Optical Character Recognition(OCR,光学字符识别)设计的等宽字体,广泛用于银行、信用卡公司等业务场景。OCR-A 字体
OCR-B为 Optical Character Recognition(OCR)设计的字体。OCR-B 字体
Receipt识别器会按低质量文本进行处理,主要针对收据上常见的等宽或常规字体。Receipt 字体
Typewriter打字机打印的文本。Typewriter 字体

Text 字段的附加属性

这些附加属性取决于为该字段指定的数据类型。

Text

Value 设置组:
  • Maximum length。字段中允许的最大字符数。如果提取值中的字符数超过此长度,将显示错误信息。如果流程中有人工审核阶段,文档将被发送到人工审核。
  • Regular expression。此选项允许您添加正则表达式(即对字段值结构的形式化描述)。使用正则表达式设置的字段可以包含数据表单中指定的字母、数字和其他字符。
使用正则表达式可以提高提取精度,即用于在文本中查找模式,并通过限制有效字符集来影响提取结果。例如,如果某个文本字段只包含数字,您可以指定一个正则表达式,将字段的结构描述为仅包含数字。在这种情况下,在识别该字段时,程序会尝试将每个字符识别为数字。您还可以为特定的电话号码格式指定正则表达式(示例 1),或者检查字段是否包含 2 个词且其中一个是数字,例如 50 lbs(示例 2): 示例 1(用于类似 1-(234)-567-8900 或 2 (987) 654 3211 的电话号码)
/^(1|2)(\-|\s)\([\d]{3}\)(\-|\s)[\d]{3}(\-|\s)[\d]{4}$/
示例 2(针对重量值为 50lb/50lbs/50Lb/50Lbs/50 lb/50 lbs 等的情况)
/^[\d]*(\s)?(L|l)b(s)?$/
注意: 正则表达式不会影响 PDF 文档的文本识别。

日期

值可以包括 设置组:
  • 时间。对于可能同时包含时间的日期字段,应选择此选项。如果不允许时间值,在识别过程中将不会提取。
  • 星期几。此选项允许在日期字段中指定星期几。如果不允许星期几的值,在识别过程中将不会提取。
  • 按名称的月份。此选项允许将月份指定为文字。
可接受的组件顺序 设置组允许您从以下选项中选择合适的日期格式:日-月-年度月-日-年度年度-月-日。您也可以一次指定多种不同的格式。如果检测到的日期格式与指定的日期格式不符,文档将带有错误被发送至人工审核。 可接受日期 设置组允许您指定有效日期范围。您可以通过选择文档被处理之日之前和之后的若干个月来指定有效范围。月份数应以整数指定。系统会使用规则检查指定日期是否在所设定的范围内。如果不在该范围内,该规则将显示错误,文档将被发送至人工审核。

Number

Value 设置组允许您指定检测到的值属于哪种数字类型(整数或小数),以及在此字段中可以检测到哪些数字格式。如果该字段的值不满足指定要求,文档将被发送到人工审核。
  • Integers only 指定该值只能为整数。如果在启用此选项时在字段中检测到带有分隔符的数字,则这些分隔符将被视为千位分隔符。
  • Fractional part may contain more than two digits。如果预期提取值的小数部分可能多于两位,请启用此选项。以下字符可用作小数分隔符:点号 (.)、逗号 ( , )、连字符 (-)、等号 (=) 和空格 ( )。
  • May have negative values。此选项允许提取值为负数。负值可以用减号或括号表示。
  • May include ’%’ symbol。此选项允许提取值在数值前或后包含百分号字符。
Number must be within interval 设置组允许您指定一个区间,值必须落在此区间内才被视为有效。区间范围通过指定最大值和最小值来设置。这些值可以是整数或小数,也可以为负数。然后会使用规则检查该值是否在指定范围内。如果不在,规则将显示错误,文档将被发送到人工审核。

金额

Money 属性与 Number 属性完全相同,唯一的不同在于 Money 字段不允许包含百分号字符。

另请参阅