跳转到主要内容
What to search for 部分中,Character String 元素具有以下属性:

方法

Method 指定用于搜索文本的方式。可用以下两种方法:

字符

字符 使用指定的字符集来描述文本。字符集是允许出现在所搜索序列中的字符的集合。当字符序列的格式无法用正则表达式描述,或图像质量较低导致识别错误时,使用此方法。可以为字符字符串元素指定多个字符集,但这些字符集不能包含彼此重复的字符。如果未知文本格式,则不限定允许的字符集,搜索时将考虑所有可能的字符。要设置字符集,请在 Method 字段中选择 Characters,然后转到 Characters 字段。在随即弹出的对话框中,您可以新建、编辑或删除字符集。

设置字符集

  1. 在下拉列表中,从 Code Page 字段或 Unicode Subrange 字段选择相应的字符编码标准。
  2. 在下方的表格中选择所需字符。
  3. 所选字符将显示在 Selected characters 字段中。你也可以通过键盘指定字符集。
  4. Portion in text, % 字段中,指定待搜索文本中该字符集的占比(0 到 100)。
CharacterSet

正则表达式

正则表达式 用正则语法来描述要搜索的文本。正则表达式是一种专用语言,用于定义某个词或其他输入值的结构。它通过限定可能的字符组合及其相互位置,来刻画待搜索文本的结构。正则表达式搜索具有精确性——也就是说,所设定的模式应与正则表达式完全一致。通常在文档图像质量较高且无识别错误时使用此方法。要用正则表达式描述要搜索的文本,请在 Method 字段中选择 Regular Expression,并转到下方的字段。在打开的编辑器中输入你的正则表达式。

正则表达式字母表

列表中的名称field 中的符号示例
任意字符*“k”*“t” – 允许 ‘kit’、‘kat’ 等
字母CC”at” – 允许 cat、bat、Rat、mat 等
大写字母AA”at” – 允许 Cat、Bat、Rat、Mat 等
小写字母aa”at” – 允许 car、bat、rat、mat 等
字母或数字XX – 允许任意单个字母或数字。
数字NN”th” – 允许 5th、4th、6th 等
字符串"""cat”
”dr”(“i""u”)“nk” – 允许 “drink” 或 “drunk”。
来自集合的字符[][hm]“at” – 允许 ‘hat’ 或 ‘mat’。
不在集合中的字符[^][^b]“at” – 允许 ‘cat’、‘mat’、‘rat’,但不允许 bat。
任意次数重复(应用于左侧的表达式或子表达式){-}[AB74]{-} – 允许由 A、B、7、4 组成的任意长度组合。
重复次数为 n{n}N{2}"th" – 允许 25th、84th、11th 等
重复 n 到 m 次{n-m}N{1-3}"th" – 允许 5th、84th、111th 等
重复 0 到 n 次{-n}N{-2}"th" – 允许 th、84th、4th 等
至少重复 n 次{n-}N{2-}"th" – 允许 25th、834th、311th、34576th 等
子表达式()

正则表达式示例

  1. 邮政编码:[0-9]{6} 示例值:“142172”
  2. Zip code(USA):[0-9]{5}("-"[0-9]{4}){-1} 示例值:“55416”、“33701-4313”
  3. 收入:N{4-8}[,]N{2} 示例值:“15000,00”、“4499,00”
  4. 数字形式的月份:((|"0")[1-9])|("10")|("11")|("12") 示例值:“4”、“05”、“12”
  5. 小数:("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) 示例值:“1234,567”、“0.99”、“100,0”、“-345.6788903”
  6. 电子邮件:[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") 示例值:“support@abbyy.com”、“my-name@company.org.ru”、“info@gallery.museum

扩展正则表达式

扩展正则表达式是在一个左方括号后跟百分号以及百分号后跟右方括号([% 和 %])之间加入附加功能的正则表达式。扩展正则表达式具有以下附加特性:
  1. 括号内的一个或多个字符会补充常见的 Optical Character Recognition (OCR) 识别错误。 例如,[%S%] 可能允许 S、$ 和 5。
  2. [%...%] 内的特殊词用于常见字符集和 OCR 识别错误: a. LETTERS - 大写拉丁字母以及常被识别为大写拉丁字母的字符; b. DIGITS - 数字以及常被识别为数字的字符; c. LETERSANDDIGITS - 大写拉丁字母、数字,以及常被识别为大写拉丁字母或数字的字符。
例如,[%DIGITS%]{9} 指定九个连续的数字或数字的常见 OCR 识别错误,例如 “OI234Sb7B9”。

其他属性

  • 允许的错误 指定识别错误的最大允许百分比。换言之,它表示在所有字符中,来自已定义字符集之外的字符所占的最大允许比例。仅当对象的识别错误百分比不高于指定值时,才能为其生成假设。
  • 词数 指定要搜索文本的最小和最大词数。
  • 字符数 指定要搜索文本的最小和最大字符数。
  • 搜索词的部分 指定是否在假设中允许词的片段。如果需要排除包含词片段的假设并仅搜索完整词语,请禁用此选项。

高级属性

  • 允许嵌入式假设:允许在搜索区域内使用字符来生成所有可能的假设,包括相交和嵌入式假设。
  • 最大空格长度:用于指定在检测到的对象内的空格最大长度。
  • 文本方向:用于指定要查找的文本方向。默认情况下,此活动仅查找水平方向的文本,不会为旋转文本生成假设。如果需要按特定方式查找旋转文本并忽略其他方向的文本,应仅选择 顺时针逆时针 选项。若要不受方向影响地查找文本,应启用所有可用选项。
  • 按以下方式检测单词:指定如何将行划分为单词:自动(预识别),或当相邻字符之间的间距大于或等于 最小词间距 中输入的值时,将一行划分为单词(词间空格)。
在高级模式下,属性 单词计数字符计数 不是通过数值设置,而是通过模糊区间设置。详情请参见 模糊区间模糊区间编辑器 要显示高级属性,请在 属性 窗格中单击高级模式图标。