方法
字符
设置字符集
- 在下拉列表中,从 Code Page 字段或 Unicode Subrange 字段选择相应的字符编码标准。
- 在下方的表格中选择所需字符。
- 所选字符将显示在 Selected characters 字段中。你也可以通过键盘指定字符集。
- 在
Portion in text, %字段中,指定待搜索文本中该字符集的占比(0 到 100)。

正则表达式
正则表达式字母表
| 列表中的名称 | field 中的符号 | 示例 | ||
|---|---|---|---|---|
| 任意字符 | * | “k”*“t” – 允许 ‘kit’、‘kat’ 等 | ||
| 字母 | C | C”at” – 允许 cat、bat、Rat、mat 等 | ||
| 大写字母 | A | A”at” – 允许 Cat、Bat、Rat、Mat 等 | ||
| 小写字母 | a | a”at” – 允许 car、bat、rat、mat 等 | ||
| 字母或数字 | X | X – 允许任意单个字母或数字。 | ||
| 数字 | N | N”th” – 允许 5th、4th、6th 等 | ||
| 字符串 | "" | "cat” | ||
| 或 | ”dr”(“i" | "u”)“nk” – 允许 “drink” 或 “drunk”。 | ||
| 来自集合的字符 | [] | [hm]“at” – 允许 ‘hat’ 或 ‘mat’。 | ||
| 不在集合中的字符 | [^] | [^b]“at” – 允许 ‘cat’、‘mat’、‘rat’,但不允许 bat。 | ||
| 任意次数重复(应用于左侧的表达式或子表达式) | {-} | [AB74]{-} – 允许由 A、B、7、4 组成的任意长度组合。 | ||
| 重复次数为 n | {n} | N{2}"th" – 允许 25th、84th、11th 等 | ||
| 重复 n 到 m 次 | {n-m} | N{1-3}"th" – 允许 5th、84th、111th 等 | ||
| 重复 0 到 n 次 | {-n} | N{-2}"th" – 允许 th、84th、4th 等 | ||
| 至少重复 n 次 | {n-} | N{2-}"th" – 允许 25th、834th、311th、34576th 等 | ||
| 子表达式 | () |
正则表达式示例
-
邮政编码:
[0-9]{6}示例值:“142172” -
Zip code(USA):
[0-9]{5}("-"[0-9]{4}){-1}示例值:“55416”、“33701-4313” -
收入:N
{4-8}[,]N{2}示例值:“15000,00”、“4499,00” -
数字形式的月份:
((|"0")[1-9])|("10")|("11")|("12")示例值:“4”、“05”、“12” -
小数:
("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-})))示例值:“1234,567”、“0.99”、“100,0”、“-345.6788903” -
电子邮件:
[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost")示例值:“support@abbyy.com”、“my-name@company.org.ru”、“info@gallery.museum”
扩展正则表达式
[% 和 %])之间加入附加功能的正则表达式。扩展正则表达式具有以下附加特性:
-
括号内的一个或多个字符会补充常见的 Optical Character Recognition (OCR) 识别错误。
例如,
[%S%]可能允许 S、$ 和 5。 -
[%...%]内的特殊词用于常见字符集和 OCR 识别错误: a. LETTERS - 大写拉丁字母以及常被识别为大写拉丁字母的字符; b. DIGITS - 数字以及常被识别为数字的字符; c. LETERSANDDIGITS - 大写拉丁字母、数字,以及常被识别为大写拉丁字母或数字的字符。
[%DIGITS%]{9} 指定九个连续的数字或数字的常见 OCR 识别错误,例如 “OI234Sb7B9”。
其他属性
- 允许的错误 指定识别错误的最大允许百分比。换言之,它表示在所有字符中,来自已定义字符集之外的字符所占的最大允许比例。仅当对象的识别错误百分比不高于指定值时,才能为其生成假设。
- 词数 指定要搜索文本的最小和最大词数。
- 字符数 指定要搜索文本的最小和最大字符数。
- 搜索词的部分 指定是否在假设中允许词的片段。如果需要排除包含词片段的假设并仅搜索完整词语,请禁用此选项。
高级属性
- 允许嵌入式假设:允许在搜索区域内使用字符来生成所有可能的假设,包括相交和嵌入式假设。
- 最大空格长度:用于指定在检测到的对象内的空格最大长度。
- 文本方向:用于指定要查找的文本方向。默认情况下,此活动仅查找水平方向的文本,不会为旋转文本生成假设。如果需要按特定方式查找旋转文本并忽略其他方向的文本,应仅选择 顺时针 或 逆时针 选项。若要不受方向影响地查找文本,应启用所有可用选项。
- 按以下方式检测单词:指定如何将行划分为单词:自动(预识别),或当相邻字符之间的间距大于或等于 最小词间距 中输入的值时,将一行划分为单词(词间空格)。
