跳轉到主要內容
設定 Character String 元件的屬性,可使用字元集或正規表示式在同一行中搜尋字元序列。 Character String 元件在 What to search for 區段中具有以下屬性:

方法

方法 指定用於文字搜尋的方式。可用的搜尋方法有以下兩種:

Characters

Characters 使用指定的字元集來定義文字;字元集是允許出現在搜尋目標字元序列中的字元集合。當字元序列的格式無法用 regular expression(正規表示式)描述,或影像品質不足導致辨識錯誤時,會使用此方法。可以為 Character String 元素指定多個字元集,但這些字元集彼此之間不得包含相同的字元。若文字格式未知,則不指定允許的字元集,在搜尋時會將所有可能的字元都納入考量。若要設定字元集,請在 Method 欄位中選取 Characters,並前往 Characters 欄位。在隨即開啟的對話方塊中,您可以設定新的字元集,以及編輯和刪除現有的字元集。

設定字元集

  1. Code Page 欄位或 Unicode Subrange 欄位的下拉清單中選擇適當的字元編碼標準。
  2. 在下方表格中選取適當的字元。
  3. 您選取的字元會顯示在 Selected characters 欄位中。您也可以使用鍵盤輸入來指定字元集。
  4. Portion in text, % 欄位中,指定在要搜尋文字中出現的字元所佔比例(從 0 到 100)。
CharacterSet

Regular Expression

Regular Expression 使用正則運算式來描述要搜尋的文字。正則運算式使用一種特殊語言來描述單字或其他任何輸入值的結構。正則運算式會決定字元的可能組合及其彼此之間的位置關係,從而描述要搜尋文字的結構。正則運算式搜尋非常精準——也就是說,所設定的模式必須與正則運算式完全一致。通常,這種搜尋方法適用於影像品質高且幾乎沒有辨識錯誤的文件。若要使用正則運算式來描述要搜尋的文字,請在 Method 欄位中選擇 Regular Expression,然後移至下方欄位。在隨即開啟的編輯器中輸入您的正則運算式。

正則表達式字元集

列表中的名稱欄位中的符號範例
任意字元*“k”*“t” – 允許 ‘kit’、‘kat’ 等。
字母CC”at” – 允許 cat、bat、Rat、mat 等。
大寫字母AA”at” – 允許 Cat、Bat、Rat、Mat 等。
小寫字母aa”at” – 允許 car、bat、rat、mat 等。
字母或數字XX – 允許任一個字母或數字。
數字NN”th” – 允許 5th、4th、6th 等。
string"""cat”
”dr”(“i""u”)“nk” – 允許 “drink” 或 “drunk”。
來自集合的字元[][hm]“at” – 允許 ‘hat’ 或 ‘mat’。
不在集合中的字元[^][^b]“at” – 允許 ‘cat’、‘mat’、‘rat’,但不允許 ‘bat’。
任意次數重複(套用於左側的運算式或子運算式){-}[AB74]{-} – 允許任意長度、由 A、B、7、4 組成的任意組合。
重複次數為 n{n}N{2}"th" – 允許 25th、84th、11th 等。
重複 n 到 m 次{n-m}N{1-3}"th" – 允許 5th、84th、111th 等。
重複 0 到 n 次{-n}N{-2}"th" – 允許 th、84th、4th 等。
重複 n 次以上{n-}N{2-}"th" – 允許 25th、834th、311th、34576th 等。
子運算式()

正則表達式示例

  1. 郵政編碼:[0-9]{6} 範例值:“142172”
  2. 郵遞區號 (USA):[0-9]{5}("-"[0-9]{4}){-1} 範例值:“55416”、“33701-4313”
  3. 收入:N{4-8}[,]N{2} 範例值:“15000,00”、“4499,00”
  4. 數字格式的月份:((|"0")[1-9])|("10")|("11")|("12") 範例值:“4”、“05”、“12”
  5. 小數:("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) 範例值:“1234,567”、“0.99”、“100,0”、“-345.6788903”
  6. 電子郵件地址:[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") 範例值:“support@abbyy.com”、“my-name@company.org.ru”、“info@gallery.museum

擴充正規表示式

擴充正規表示式是具有額外功能的正規表示式,這些功能包裹在左中括號後接百分比字元,及百分比字元後接右中括號之間([%%])。擴充正規表示式具有以下額外功能:
  1. 括號內的一個或多個字元會自動擴充為包含常見 OCR 誤讀錯誤的變體。例如,[%S%] 可以允許 S、$ 和 5。
  2. [%...%] 中可使用特殊關鍵字來表示常見字元集與 OCR 誤讀錯誤:a. LETTERS - 大寫拉丁字母以及通常會被辨識為大寫拉丁字母的字元;b. DIGITS - 數字以及通常會被辨識為數字的字元;c. LETERSANDDIGITS - 大寫拉丁字母、數字,以及通常會被辨識為大寫拉丁字母與數字的字元。
例如,[%DIGITS%]{9} 指定九個連續的數字或數字的常見 OCR 誤讀錯誤,例如「OI234Sb7B9」。

其他屬性

  • 允許錯誤 指定可接受的最大辨識錯誤百分比。換句話說,它表示在所有字元中,允許不屬於已定義字元集的字元所佔的最大百分比。只有當某個物件的辨識錯誤百分比不高於此指定值時,才會為該物件建立假設。
  • 字數 指定所搜尋文字的最小與最大單字數。
  • 字元數 指定所搜尋文字的最小與最大字元數。
  • 搜尋字的一部分 指定在假設中是否允許使用單字片段。如果您需要排除包含單字片段的假設,並且只搜尋完整單字,請停用此選項。

進階屬性

  • Allow embedded hypotheses 允許根據搜尋區域中的字元產生所有可能的假設——包括相交與嵌入的假設。
  • Max. space length 可用來指定在偵測到的物件內可包含的空白之最大長度。
  • Text orientation 可用來指定您要尋找的文字方向。預設情況下,此活動只會尋找水平方向的文字,且不會對旋轉文字建立假設。如果您需要只找到以特定方式旋轉的文字,並忽略以其他任何方向書寫的文字,則只需選取 順時針 (Clockwise)逆時針 (Counter-clockwise) 選項。若要不論方向皆能找到文字,請啟用所有可用選項。
  • Detect words by 指定應如何將一行分割為單字:自動 (Pre-Recognition),或是在鄰近字元之間的空白大於或等於 Min. interword space 中輸入的值時,透過將一行分割成多個單字 (Interword Space) 來進行。
在進階模式中,Word countCharacter count 屬性並非以單一數值設定,而是以模糊區間設定。詳細資訊請參閱 Fuzzy IntervalFuzzy Interval Editor 若要顯示進階屬性,請在 Properties 窗格中按一下進階模式圖示。