跳转到主要内容
配置 字符串 元素的属性,以便使用字符集或正则表达式在单行中搜索字符序列。 “要搜索的内容” 部分,字符串 元素具有以下属性:

方法

Method 指定用于文本搜索的方式。提供以下 2 种方法:

字符

字符 方法使用指定的字符集来描述文本,字符集是允许出现在被搜索序列中的字符的集合。当字符序列的格式无法使用正则表达式描述,或者图像质量不够高导致识别错误时,会使用此方法。可以为 Character String 元素指定多个字符集,但这些字符集中不能同时包含相同的字符。如果文本格式未知,则不指定允许的字符集,在搜索时会考虑所有可能的字符。要设置字符集,请在 Method 字段中选择 Characters,然后转到 Characters 字段。在随即打开的对话框中,您可以设置新的字符集,以及编辑和删除现有的字符集。

设置字符集

  1. Code Page 字段或 Unicode Subrange 字段的下拉列表中选择适当的字符编码标准。
  2. 在下方的表格中选择相应的字符。
  3. 所选字符会显示在 Selected characters 字段中。您也可以使用键盘来指定字符集。
  4. Portion in text, % 字段中,指定要搜索的文本中此类字符所占的百分比(从 0 到 100)。
CharacterSet

正则表达式

正则表达式 用于通过正则表达式来描述要搜索的文本。正则表达式使用一种特殊语言来描述单词或任何其他输入值的结构。它确定可能的字符组合及其相互之间的位置关系,从而刻画要搜索文本的结构。通过正则表达式进行搜索是精确的——也就是说,您设定的假设应与正则表达式严格一致。通常,当文档图像质量较高且没有识别错误时,会采用这种搜索方法。要使用正则表达式描述要搜索的文本,请在 Method 字段中选择 Regular Expression,然后转到下方的字段。在打开的编辑器中指定您的正则表达式。

正则表达式字符集

列表中的名称字段中符号示例
任意单个字符*“k”*“t” – 允许 ‘kit’、‘kat’ 等
字母CC”at” – 允许 cat、bat、Rat、mat 等
大写字母AA”at” – 允许 Cat、Bat、Rat、Mat 等
小写字母aa”at” – 允许 car、bat、rat、mat 等
字母或数字XX – 允许任意单个字母或数字
数字NN”th” – 允许 5th、4th、6th 等
字符串"""cat”
”dr”(“i""u”)“nk” – 允许 “drink” 或 “drunk”
集合中的字符[][hm]“at” – 允许 ‘hat’ 或 ‘mat’
不在集合中的字符[^][^b]“at” – 允许 ‘cat’、‘mat’、‘rat’,但不允许 ‘bat’
任意次数重复(应用于左侧表达式或子表达式){-}[AB74]{-} – 允许任意长度、由 A、B、7、4 组成的任意组合
重复次数为 n{n}N{2}"th" – 允许 25th、84th、11th 等
重复 n 到 m 次{n-m}N{1-3}"th" – 允许 5th、84th、111th 等
重复 0 到 n 次{-n}N{-2}"th" – 允许 th、84th、4th 等
重复 n 次或更多次{n-}N{2-}"th" – 允许 25th、834th、311th、34576th 等
子表达式()

正则表达式示例

  1. 邮政编码:[0-9]{6} 示例值:“142172”
  2. 美国邮政编码(USA):[0-9]{5}("-"[0-9]{4}){-1} 示例值:“55416”、“33701-4313”
  3. 收入:N{4-8}[,]N{2} 示例值:“15000,00”、“4499,00”
  4. 数字形式的月份:((|"0")[1-9])|("10")|("11")|("12") 示例值:“4”、“05”、“12”
  5. 分数:("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) 示例值:“1234,567”、“0.99”、“100,0”、“-345.6788903”
  6. 电子邮件:[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") 示例值:“support@abbyy.com”、“my-name@company.org.ru”、“info@gallery.museum

扩展正则表达式

扩展正则表达式是在普通正则表达式的基础上增加了额外功能,其额外功能写在一个左方括号后跟百分号和一个百分号后跟右方括号之间([% and %])。扩展正则表达式具有以下附加特性:
  1. 括号内的一个或多个字符会扩展为同时包含这些字符及其常见的 OCR 识别错误。例如,[%S%] 可以匹配 S、$ 和 5。
  2. [%...%] 内的特殊关键字用于表示常见字符集及其 OCR 识别错误:a. LETTERS - 大写拉丁字母以及通常会被识别为大写拉丁字母的字符;b. DIGITS - 数字以及通常会被识别为数字的字符;c. LETERSANDDIGITS - 大写拉丁字母、数字以及通常会被识别为大写拉丁字母和数字的字符。
例如,[%DIGITS%]{9} 指定九个连续数字或数字的常见 OCR 识别错误,例如 “OI234Sb7B9”。

其他属性

  • 允许错误 指定最大允许的识别错误率(百分比)。换句话说,它表示在全部字符中,最多有多少百分比的字符可以不在已定义的字符集中。仅当对象的识别错误率不高于指定值时,才能为该对象生成假设。
  • 单词数量 指定要搜索的文本中单词数量的最小值和最大值。
  • 字符数量 指定要搜索的文本中字符数量的最小值和最大值。
  • 搜索单词的部分内容 指定在假设中是否允许包含单词片段。如果需要排除包含单词片段的假设并且只搜索完整单词,请禁用此选项。

高级属性

  • Allow embedded hypotheses:允许使用搜索区域中的字符生成所有可能的假设——包括相交和嵌套的假设。
  • Max. space length:允许指定在检测到的对象内部空格的最大长度。
  • Text orientation:允许指定要查找的文本方向。默认情况下,该活动只查找水平方向的文本,不会针对旋转文本生成假设。如果需要查找以特定方式旋转的文本并忽略其他方向书写的文本,应仅选择 ClockwiseCounter-clockwise 选项。若要在不考虑方向的情况下查找文本,则应启用所有可用选项。
  • Detect words by:指定应如何将行划分为单词:自动(Pre-Recognition),或在相邻字符之间的空格大于或等于 Min. interword space 中输入的值时,通过将一行拆分为单词(Interword Space)。
在高级模式下,属性 Word countCharacter count 不是通过数值来设置,而是通过模糊区间来设置。详情参见 Fuzzy IntervalFuzzy Interval Editor 要显示高级属性,请在 Properties 窗格中单击高级模式图标。