- 在文档图像上指定字段区域:单击字段的值(鼠标悬停时会以绿色高亮显示),或者在字段值周围框选一个矩形区域。之后,新字段会出现在数据表单中。您可以在数据表单中双击字段名称,或在字段属性中单击字段名称来修改它。连续单击三次字段名称可以选中整个名称。要打开字段属性,请单击 字段选项 按钮。
- 在工具栏上单击 添加字段,向数据表单添加新字段,然后在图像上框选字段区域。这样会将选定区域中检测到的数据指定为数据表单中该字段的值。
添加具有多个区域的文本字段
- 某些字段值可能从一行文本开始,在另一行结束。
- 某些字段值可能从一个页面开始,在另一个页面结束。
- 使用上文描述的方法添加一个字段。
- 按住 Shift 键,并为已添加的字段选择额外的区域。
- 位于不同页面上
- 位于字段的另一个区域内(在这种情况下,内部区域会以较深的颜色高亮显示,如果其处于焦点状态,则会以黄色高亮显示)。
文本字段的一般属性
- 字段名称。在特定技能中字段的唯一名称。字段名称不能包含句点、逗号、斜杠、冒号、星号、问号、引号、小于号、大于号或竖线等特殊字符。字段名称的最大允许长度为 90 个字符。
- 数据类型。字段中所包含的数据类型。这是一个对文本字段至关重要的参数,因为它会影响识别准确性。每种数据类型对字段值都有各自的限制,从而缩小每个字符可能的取值范围,使数据提取更加精确。
| 数据类型 | 描述 |
|---|---|
| Text | 可以包含拉丁字母、西里尔字母、数字、表意文字以及特殊字符。 |
| Date | 以任意格式表示的日期和时间。可以用作分隔符的字符包括:点号 (.)、空格 ( )、连字符 (-)、反斜杠 () 和正斜杠 (/)。 |
| Number | 可以包含数字、小数分隔符和百分号 (%)。以下字符可用作小数分隔符:点号 (.)、逗号 (,)、连字符 (-)、等号 (=) 和空格 ( )。以下字符可用作千位分隔符:点号 (.)、逗号 (,)、单引号 (’) 和空格 ( )。 |
| Money | 同时包含数值和货币符号。货币符号可以放在金额之前或之后。 |
- 允许多个项。指定该字段是否为重复字段。重复字段的实例可以引用多个相同类型的对象。例如,子女的姓名或账户号码。
- 必填字段。指定字段值不能为空。启用此属性会向页面添加验证规则。如果字段在提取后为空,该文档将因错误被发送至人工审核。
- 关键字段。指定该字段的值是否用于搜索文档。
- 维度字段。指定该字段的值是否用于在技能监控中获取有关技能事务的详细信息。
文本外观
- 文本来源。指定字段中是只能包含印刷体字符、只能包含手写体字符,还是两者都可以。如果通过在文档上标记一个矩形区域来添加字段,则此属性的取值取决于在该区域中检测到的字符类型。如果通过单击 添加字段 来添加字段,则此属性的默认值为 印刷体。
注意: 对于新建的文档技能,手写文本识别默认处于启用状态。若要禁用或重新启用此功能,请单击技能名称右侧的技能设置图标,然后转到 Languages 选项卡,并在 Text Appearance 部分中选择 手写识别 选项。
- 消除字段背景。如果字段具有边框、单个字符的方框或占位文本,可以使用此选项提高识别精度。启用此选项后,必须上传空白表单文档,将其用作背景识别的模板,并在空白表单上标注相应的字段。空白表单文档会显示在 Document Set 中,并带有图标标记。
- 特殊字体。如果预期字段包含使用特定字体输入的文本,可以使用此选项选择字体类型,从而提高识别精度。也可以选择多种字体。
支持的字体
| 字体 | 描述 | 字体示例 |
|---|---|---|
| Fax | 一种传真机常用的字体。 | ![]() |
| Gothic | 以 Gothic 字体印刷的文本。 | ![]() |
| Index | 一套特殊字符集,仅包含以邮政编码风格(ZIP code)书写的数字。 | ![]() |
| Matrix printer | 使用点阵打印机打印的文本。 | ![]() |
| MICR CMC-7 | 一种特殊的 MICR 条形码字体(CMC-7)。 | ![]() |
| MICR E-13B | 一套使用磁性墨水打印的特殊数字字符。MICR(Magnetic Ink Character Recognition,磁性墨水字符识别)字符常见于多种文档上,例如个人支票。 | ![]() |
| OCR-A | 为 Optical Character Recognition(OCR,光学字符识别)设计的等宽字体,广泛用于银行、信用卡公司等业务场景。 | ![]() |
| OCR-B | 为 Optical Character Recognition(OCR)设计的字体。 | ![]() |
| Receipt | 识别器会按低质量文本进行处理,主要针对收据上常见的等宽或常规字体。 | ![]() |
| Typewriter | 打字机打印的文本。 | ![]() |
Text 字段的附加属性
Text
- Maximum length。字段中允许的最大字符数。如果提取值中的字符数超过此长度,将显示错误信息。如果流程中有人工审核阶段,文档将被发送到人工审核。
- Regular expression。此选项允许您添加正则表达式(即对字段值结构的形式化描述)。使用正则表达式设置的字段可以包含数据表单中指定的字母、数字和其他字符。
注意: 正则表达式不会影响 PDF 文档的文本识别。
日期
- 时间。对于可能同时包含时间的日期字段,应选择此选项。如果不允许时间值,在识别过程中将不会提取。
- 星期几。此选项允许在日期字段中指定星期几。如果不允许星期几的值,在识别过程中将不会提取。
- 按名称的月份。此选项允许将月份指定为文字。
Number
- Integers only 指定该值只能为整数。如果在启用此选项时在字段中检测到带有分隔符的数字,则这些分隔符将被视为千位分隔符。
- Fractional part may contain more than two digits。如果预期提取值的小数部分可能多于两位,请启用此选项。以下字符可用作小数分隔符:点号 (.)、逗号 ( , )、连字符 (-)、等号 (=) 和空格 ( )。
- May have negative values。此选项允许提取值为负数。负值可以用减号或括号表示。
- May include ’%’ symbol。此选项允许提取值在数值前或后包含百分号字符。










