메인 콘텐츠로 건너뛰기
대부분의 Extraction Rules 활동 검색 요소에는 Properties 창에 What to search forWhere to search라는 두 섹션이 있습니다. 예외는 다음과 같습니다:
  • 고유한 속성이 없는 GroupRepeating Group 요소
  • Extraction Rules 활동 앞에 있는 다른 활동에서 가져오며, 한 입력 field에서 다른 입력 field로 전환하기 위한 Get region from 옵션만 제공하는 입력 field 요소

검색 기준

검색 기준(What to search for) 섹션에는 각 요소별 고유 속성이 포함됩니다.

사람, 조직, 주소, 위치, 날짜, 기간, 금액

개체명을 검색하는 모든 검색 요소에 대해 다음 속성을 지정할 수 있습니다:
  • Entities: 개체 유형. 유형을 변경하면 해당 검색 요소 옆의 icon이 자동으로 업데이트됩니다.
  • Instances: 인스턴스 수. 첫 번째 인스턴스만 추출하거나 발견된 모든 인스턴스를 추출할 수 있습니다.

사전 값

사전 구문에 대해 다음을 지정합니다:
  • Text 원본: 찾을 단어나 구의 목록이 들어 있는 TXT 파일로, 각 줄에 한 가지 변형을 입력합니다.
  • 형태소 사용: 이 옵션을 켜서 단어의 모든 활용 형태를 검색합니다.
  • 인스턴스: 인스턴스 개수입니다. 첫 번째 인스턴스만 추출하거나, 감지된 모든 인스턴스를 추출할 수 있습니다.

정규 표현식 값

정규 표현식을 사용하는 경우 다음을 지정합니다:
  • Regular expression: 검색을 정의하는 정규 표현식입니다. 프로그램은 PCRE2 정규 표현식 구문을 사용합니다.
  • Search for parts of words: 이 옵션을 켜면, 단어가 나머지 텍스트와 공백으로 구분되지 않은 경우에도 일치 항목을 찾습니다.
  • Instances: 인스턴스 수입니다. 첫 번째 인스턴스만 추출하거나 감지된 모든 인스턴스를 추출할 수 있습니다.

Text

텍스트 검색 요소의 경우 편집 아이콘을 클릭한 뒤 검색할 단어나 구문 목록을 입력하거나, 문서 이미지에서 인식된 단어를 클릭해 추가합니다. Value from Dictionary 검색 요소와 달리, 키워드는 TXT 파일이 아니라 화면에 직접 나열되며, 일부 인식 오류를 허용하도록 설정할 수도 있습니다.
  • Text source: 검색할 단어나 구문 목록으로, 각 변형을 한 줄에 하나씩 입력합니다.
  • Use morphology: 이 옵션을 켜면 모든 단어 형태를 검색합니다.
  • Allowed errors: 텍스트를 여전히 검색된 것으로 허용할, 서로 다른 문자 수 또는 그 비율입니다. 인식 오류가 있는 경우에 유용할 수 있습니다.
Note: Use morphology 옵션을 켜면 이 옵션은 사용할 수 없습니다.
  • Instances: 인스턴스의 개수입니다. 첫 번째 인스턴스만 추출하거나 감지된 모든 인스턴스를 추출할 수 있습니다.
검색 위치(Where to search) 섹션은 모든 요소에서 동일합니다. 이 섹션에서는 프로그램이 검색 요소를 찾을 영역을 더 좁게 지정할 수 있습니다. 아래 설정에서는 목록에서 현재 요소보다 위에 있는 검색 요소들을 사용할 수 있습니다:
  • 검색 범위(Search in): 검색 요소가 전체 문서(Whole Document) 안에 있거나, 다른 검색 요소 안에 위치해 있습니다.
예: 문서 서문 부분에서 기관 이름을 찾습니다.
  • 이후(After): 검색 요소가 인식된 텍스트에서 다른 검색 요소 뒤에 위치해 있습니다.
    • 같은 문장에서 검색(Search in the same sentence): 이 옵션을 켜면 같은 문장 안에서 요소를 찾습니다.
예: 같은 문장에서 기관 이름 뒤에 나오는 기관의 역할을 찾습니다.
  • 이전(Before): 검색 요소가 인식된 텍스트에서 다른 검색 요소 앞에 위치해 있습니다.
    • 같은 문장에서 검색(Search in the same sentence): 이 옵션을 켜면 같은 문장 안에서 요소를 찾습니다.
예를 들어, 어떤 사람의 생년월일을 찾고자 할 때, 먼저 “born” 키워드로 보조 검색 요소를 만든 다음, 같은 문장에서 이 키워드 뒤 어딘가에 Date 엔터티가 위치해 있다고 지정할 수 있습니다. 여러 개의 이후(After)이전(Before) 요소를 추가하여 검색을 더욱 세밀하게 조정할 수 있습니다.