메인 콘텐츠로 건너뛰기
Character String 요소 속성을 구성하여 문자 집합 또는 정규식을 사용해 한 줄에서 문자열 시퀀스를 검색할 수 있습니다. What to search for 섹션에서 Character String 요소에는 다음과 같은 속성이 있습니다.

Method

Method는 텍스트 검색 방식을 지정합니다. 사용할 수 있는 방법은 다음 두 가지입니다:

Characters

Characters 방법은 지정된 문자 집합을 사용해 텍스트를 정의합니다. 문자 집합은 검색 대상 시퀀스에 포함될 수 있도록 허용된 문자들의 모음입니다. 이 메서드는 문자 시퀀스 형식을 정규 표현식으로는 표현할 수 없거나, 이미지 품질이 충분히 높지 않아 인식 오류가 발생하는 경우에 사용됩니다. Character String 요소에는 여러 문자 집합을 지정할 수 있지만, 이 문자 집합들 사이에는 공통으로 포함된 문자가 있어서는 안 됩니다. 텍스트의 형식을 알 수 없는 경우에는 허용 문자 집합을 지정하지 않고, 검색 시 가능한 모든 문자를 대상으로 합니다. 문자 집합을 설정하려면 Method field에서 Characters를 선택한 다음 Characters field로 이동합니다. 열리는 대화 상자에서 새 문자 집합을 설정하고, 기존 문자 집합을 편집하거나 삭제할 수 있습니다.

문자 집합 설정

  1. 드롭다운 목록에서 Code Page field 또는 Unicode Subrange field에서 적절한 문자 인코딩 표준을 선택합니다.
  2. 아래 표에서 필요한 문자를 선택합니다.
  3. 선택한 문자는 Selected characters field에 표시됩니다. 키보드를 사용해 문자 집합을 직접 지정할 수도 있습니다.
  4. Portion in text, % field에서 검색할 텍스트에 포함된 문자 비율(0~100)을 지정합니다.
CharacterSet

Regular Expression

Regular Expression은 정규식을 사용해 검색할 텍스트를 정의하는 방법입니다. 정규식은 특수한 표현 언어를 사용하여 단어나 기타 입력 값의 구조를 기술합니다. 정규식은 가능한 문자 조합과 그 상호 위치 관계를 정의함으로써, 검색 대상 텍스트의 구조를 설명합니다. 정규식을 사용한 검색은 매우 정밀하므로, 정의한 패턴이 정규식과 정확히 일치해야 합니다. 일반적으로 이 검색 방법은 문서 이미지의 품질이 높고 인식 오류가 없을 때 사용됩니다. 정규식을 사용해 검색할 텍스트를 정의하려면 Method field에서 Regular Expression을 선택한 다음, 아래 field로 이동합니다. 열리는 편집기에서 정규식을 입력합니다.

정규식 알파벳

목록의 이름field에서의 기호예시
임의의 문자*“k”*“t” – ‘kit’, ‘kat’ 등을 허용합니다
문자CC”at” – cat, bat, Rat, mat 등을 허용합니다
대문자AA”at” – Cat, Bat, Rat, Mat 등을 허용합니다
소문자aa”at” – car, bat, rat, mat 등을 허용합니다
문자 또는 숫자XX – 임의의 한 개 문자 또는 숫자를 허용합니다
숫자NN”th” – 5th, 4th, 6th 등을 허용합니다
문자열"""cat”
또는”dr”(“i""u”)“nk” – “drink” 또는 “drunk”를 허용합니다
집합에 포함된 문자[][hm]“at” – ‘hat’ 또는 ‘mat’를 허용합니다
집합에 포함되지 않은 문자[^][^b]“at” – ‘cat’, ‘mat’, ‘rat’는 허용하지만 ‘bat’는 허용하지 않습니다
반복 횟수: 임의 개수 (왼쪽 표현식 또는 하위 표현식에 적용){-}[AB74]{-} – A, B, 7, 4의 임의 길이 조합을 허용합니다
반복 횟수: n회{n}N{2}"th" – 25th, 84th, 11th 등을 허용합니다
반복 횟수: n~m회{n-m}N{1-3}"th" – 5th, 84th, 111th 등을 허용합니다
반복 횟수: 0~n회{-n}N{-2}"th" – th, 84th, 4th 등을 허용합니다
반복 횟수: n회 이상{n-}N{2-}"th" – 25th, 834th, 311th, 34576th 등을 허용합니다
하위 표현식()

정규식 예시

  1. 우편번호: [0-9]{6} 예시 값: “142172”
  2. 우편번호 (USA): [0-9]{5}("-"[0-9]{4}){-1} 예시 값: “55416”, “33701-4313”
  3. 소득: N{4-8}[,]N{2} 예시 값: “15000,00”, “4499,00”
  4. 숫자로 표현된 월: ((|"0")[1-9])|("10")|("11")|("12") 예시 값: “4”, “05”, “12”
  5. 분수: ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) 예시 값: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. 이메일: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") 예시 값: “support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum

확장 정규식

확장 정규식은 여는 대괄호 뒤에 퍼센트 문자, 그리고 퍼센트 문자 뒤에 닫는 대괄호가 오는([%%]) 구문으로 둘러싸인 추가 기능을 가진 정규식입니다. 확장 정규식에는 다음과 같은 추가 기능이 있습니다:
  1. 대괄호 안의 하나 이상의 문자에 대해, 자주 발생하는 OCR 오류가 추가로 허용됩니다. 예를 들어, [%S%]는 S, $, 5를 허용할 수 있습니다.
  2. 일반적인 문자 집합 및 OCR 오류를 위한 [%...%] 내부의 특수 단어: a. LETTERS - 대문자 라틴 문자 및 일반적으로 대문자 라틴 문자로 인식되는 문자
    b. DIGITS - 숫자 및 일반적으로 숫자로 인식되는 문자
    c. LETERSANDDIGITS - 대문자 라틴 문자, 숫자 및 일반적으로 대문자 라틴 문자와 숫자로 인식되는 문자
예를 들어, [%DIGITS%]{9}는 9개의 연속된 숫자 또는 숫자에 대한 일반적인 OCR 오류를 허용하도록 지정합니다(예: “OI234Sb7B9”).

추가 속성

  • 허용 오류는 최대 허용 인식 오류 비율을 지정합니다. 즉, 전체 문자 수 중 정의된 문자 집합에 속하지 않는 문자가 차지할 수 있는 최대 비율을 나타냅니다. 객체에 대한 가설은 해당 객체의 인식 오류 비율이 지정된 값보다 높지 않은 경우에만 수립될 수 있습니다.
  • 단어 수는 검색 대상 텍스트에 포함될 수 있는 최소 및 최대 단어 수를 지정합니다.
  • 문자 수는 검색 대상 텍스트에 포함될 수 있는 최소 및 최대 문자 수를 지정합니다.
  • 단어 일부 검색은 가설에서 단어 조각을 허용할지 여부를 지정합니다. 단어 조각이 포함된 가설을 제외하고 전체 단어만 검색해야 하는 경우 이 옵션을 비활성화하십시오.

고급 속성

  • Allow embedded hypotheses는 검색 영역 내의 문자를 사용해, 교차 가설과 중첩(포함) 가설을 포함한 모든 가능한 가설을 생성하도록 허용합니다.
  • Max. space length는 인식된 객체 내부에 허용되는 공백의 최대 길이를 지정합니다.
  • Text orientation은 찾으려는 텍스트의 방향을 지정합니다. 기본적으로 이 액티비티는 가로 방향의 텍스트만 찾으며, 회전된 텍스트에 대해서는 가설을 세우지 않습니다. 특정 방향으로 회전된 텍스트만 찾고 그 외 방향의 텍스트는 무시하려면 Clockwise 또는 Counter-clockwise 옵션만 선택해야 합니다. 텍스트 방향과 관계없이 모두 찾으려면 사용 가능한 모든 옵션을 활성화해야 합니다.
  • Detect words by는 줄을 단어로 분할하는 방식을 지정합니다. 자동으로 (Pre-Recognition) 줄을 단어로 나누거나, 인접한 문자 사이의 공백이 Min. interword space에 입력한 값보다 크거나 같은 경우마다 (Interword Space) 줄을 단어로 나눕니다.
고급 모드에서는 Word countCharacter count 속성이 숫자 값이 아니라 퍼지 구간으로 설정됩니다. 자세한 내용은 Fuzzy IntervalFuzzy Interval Editor를 참조하십시오. 고급 속성을 표시하려면 Properties 창에서 고급 모드 아이콘을 클릭합니다.