- 在文档图像上,单击 field 的值(鼠标悬停时会以绿色高亮),或在该值周围框选一个矩形区域,以指定 field 区域。随后,新的 field 将显示在数据表单中。您可以在数据表单中双击它,或在 field 属性中单击它来修改 field 名称。三击可选中整个名称。要打开 field 属性,请单击 Field options 按钮。
- 在工具栏上单击 Add Field,然后在图像上标记 field 区域,将新 field 添加到数据表单中。这样会将所选区域内检测到的数据指定为该 field 在数据表单中的值。
添加具有多个区域的文本字段
- 某些字段值可能在一行文本开始并在另一行结束。
- 某些字段值可能在一页开始并在另一页结束。
- 使用上述方法之一添加一个字段。
- 按住 Shift 键,为新增的字段选择其他区域。
- 位于不同的页上
- 位于某个字段的另一处区域内(此情况下,内部区域将以更深的颜色高亮显示;若获得焦点,则会以黄色高亮)。
文本 field 的通用属性
- Field name。特定 Skill 中该 field 的唯一名称。Field name 不能包含句点、逗号、斜杠、冒号、星号、问号、引号、小于号、大于号或竖线等特殊字符。Field name 的最大长度为 90 个字符。
- Data type。field 所包含的数据类型。这是影响识别准确性的重要文本 field 参数。每种数据类型对 field 值都有各自的限制,从而缩小可识别字符的范围,提高数据提取的准确性。
| Data type | Description |
|---|---|
| Text | 可包含拉丁和西里尔字母、数字、表意文字以及特殊字符。 |
| Date | 任意格式的日期和时间。可用作分隔符的字符包括:点号 (.)、空格 ( )、连字符 (-)、反斜杠 () 和正斜杠 (/)。 |
| Number | 可包含数字、小数分隔符以及百分号 (%)。以下字符可用作小数分隔符:点号 (.)、逗号 ( , )、连字符 (-)、等号 ( = ) 和空格 ( )。以下字符可用作千位分隔符:点号 (.)、逗号 ( , )、单引号 (’) 和空格 ( )。 |
| Money | 同时包含数值和币种符号。币种符号可位于金额之前或之后。 |
- Allow multiple items。指定该 field 是否为可重复。可重复的 field 实例可以引用多个相同类型的对象,例如子女姓名或账户号。
- Required field。指定 field 的值不能为空。启用此属性会在页上添加验证规则。如果提取后该 field 为空,document 将因错误被发送至人工校验。
- Key field。指定该 field 的值是否用于搜索 documents。
- Dimension field。指定该 field 的值是否用于在 Skill Monitor 中获取有关 Skill 处理事务的详细信息。
文本外观
- 文本来源。指定该字段是否只包含印刷体字符、只包含手写体字符,或两者皆可。如果你通过在文档上标注矩形区域来添加字段,此属性的值将根据该区域中检测到的字符类型设置。如果你通过单击 Add Field 添加字段,此属性的值默认为 Printed。
注意: 对于新的 Document skills,默认启用手写体识别。要将其禁用或重新启用,单击技能名称右侧的技能设置图标,然后转到 Languages 选项卡,在 Text Appearance 部分选择 Handwritten 选项。
- 消除字段背景。如果字段带有边框、单字符方格或占位文本,可使用此选项提升识别准确性。启用该选项后,必须上传空白表单文档作为背景识别模板,并在空白表单上标注相应字段。空白表单文档将显示在 Document Set 中,并带有图标标记。
- 特殊字体。如果预计该字段包含用特定字体输入的文本,你可以使用此选项选择字体类型,以提升识别准确性。也可以选择多种字体。
支持的字体
| 字体 | 说明 | 字体示例 |
|---|---|---|
| Fax | 传真机常用字体。 | ![]() |
| Gothic | 以哥特体排印的文本。 | ![]() |
| Index | 仅包含以邮政编码风格书写的数字的一组特殊字符。 | ![]() |
| Matrix printer | 使用点阵打印机打印的文本。 | ![]() |
| MICR CMC-7 | 一种特殊的 MICR 条码字体(CMC-7)。 | ![]() |
| MICR E-13B | 一组使用磁性墨水打印的特殊数字字符。MICR(Magnetic Ink Character Recognition)字符常见于多种文档,包括个人支票。 | ![]() |
| OCR-A | 为 Optical Character Recognition (OCR) 设计的等宽字体,广泛用于银行、信用卡公司等机构。 | ![]() |
| OCR-B | 为 Optical Character Recognition (OCR) 设计的字体。 | ![]() |
| Receipt | 识别器将按收据常见的低质量文本进行处理,多为等宽或常规字体。 | ![]() |
| Typewriter | 打字机文本。 | ![]() |
文本 field 的其他属性
文本
- 最大长度。field 中允许的最大字符数。如果提取值中的字符数超过该长度,将显示错误消息。如果流程中存在人工校验阶段,Document 将被发送到人工校验。
- 正则表达式。该选项允许你添加正则表达式(即对字段值结构的形式化描述)。使用正则表达式配置的 field 可以包含字母、数字以及数据表单中规定的其他字符。
注意: 正则表达式不会影响对 PDF 文档的文本识别。
日期
- “时间”。适用于可能同时包含时间的日期 field。如果不允许时间值,识别时将不会提取。
- “星期几”。允许在日期 field 中指定星期几。如果不允许星期几,识别时将不会提取。
- “月份名称”。允许将月份以文字形式指定。
数值
- Integers only 仅限整数。启用此选项时,如果在 field 中检测到带分隔符的数字,这些分隔符将被视为千位分隔符。
- Fractional part may contain more than two digits 小数部分可超过两位。如果预期提取值的小数部分多于两位,请启用此选项。以下字符可用作小数分隔符:点号 (.)、逗号 ( , )、连字符 ( - )、等号 ( = ) 和空格 ( )。
- May have negative values 允许为负数。该选项允许提取的值为负数。负值可以用减号或括号表示。
- May include ’%’ symbol 可包含“%”符号。该选项允许在值的前或后包含百分号字符。










