메인 콘텐츠로 건너뛰기
Search 요소를 사용하면 추출하려는 객체의 유형과 속성에 대한 조건을 설정할 수 있습니다. NLP 작업은 비정형 텍스트를 처리하므로, 검색 조건은 객체의 기하학적 관계가 아니라 다른 텍스트와의 상대적인 위치를 기준으로 지정합니다. 또한 보조 Search 요소를 사용해 검색 범위를 좁히고, 원하는 객체가 이러한 보조 요소 내부에 있거나, 그 이전 또는 이후에 위치하도록 지정할 수 있습니다.

검색 요소 생성

  • 이미지에서 강조 표시된 개체 중 하나를 클릭하여 검색 요소를 빠르게 생성할 수 있습니다. 새 검색 요소는 클릭한 개체와 같은 유형으로 생성됩니다. 도구 모음의 Show Image Objects 버튼을 사용하여 강조 표시할 개체를 선택하십시오.

개체 강조 표시

다음 유형의 개체를 강조 표시할 수 있습니다.
  • Person
  • Organization
  • Address
  • Location
  • Date
  • Duration
  • Money
  • Recognized words
참고: 인식된 단어를 제외한 모든 개체는 기본적으로 강조 표시됩니다.
  • 메뉴를 사용하여 새 검색 요소를 만들 수도 있습니다.
  1. 문서 창 오른쪽에 있는 Search Elements 탭으로 이동합니다.
  2. Create Element를 클릭합니다.
  3. 열리는 목록에서 원하는 요소 유형을 선택합니다.
요소를 생성한 후에는 Properties 창에서 해당 속성을 설정해야 합니다(자세한 내용은 요소 속성을 참조하세요).
참고: 지정된 속성은 코드 형식으로도 확인하고 편집할 수 있습니다(NLP용 Extraction Rules 활동의 코드 구문을 참조하세요).

검색 요소 유형

검색 요소를 만들 때는 찾고자 하는 개체에 따라 요소 유형을 지정해야 합니다. 사용 가능한 검색 요소 유형은 아래에 간략히 설명되어 있습니다.

Person

예: John Doe, Jane Smith와 같은 사람 이름.

조직

조직 이름입니다. 예: ABBYY, Acme Corp.

주소

예: 123 Main Str., Anytown AB 45678와 같은 주소.

위치

위치 이름입니다(예: Anytown, Corporate Place).

Date

서로 다른 형식으로 표기된 날짜입니다. 예: November 14, 2009, 11/14/2009.

기간

기간(시간의 길이), 예: 12개월, 4일.

Money

금액의 예: $2670.00, 199달러 99센트. 참고: Person, Organization, Address, Location, Date, Duration, Money 요소는 Named Entities (NER) 활동에서 설정할 수 있는 명명된 개체에 해당하며, 동일한 기술을 사용해 추출됩니다.

사전에서 가져온 값

사전에 포함된 단어나 문구입니다. 사전은 검색용 텍스트의 다양한 변형을 줄마다 하나씩 나열한 일반 TXT 파일이어야 합니다.

정규 표현식 값

지정한 정규 표현식과 일치하는 값입니다.

Text

모든 어형을 검색하거나 일정 수준의 인식 오류를 허용하도록 설정할 수 있는 키워드 또는 구문입니다.

Group

중첩된 검색 요소로 구성되는 집합입니다. 그룹을 구성하는 요소는 단순 요소와 Group 요소 모두가 될 수 있습니다. Group 요소 자체에는 별도의 속성이 없습니다. 데이터는 해당 Group 안에 중첩된 검색 요소의 설정에 따라 추출됩니다. Group 요소는 요소들 간의 논리적 계층 구조를 구성하여 디버깅과 탐색을 더 쉽게 하는 데 사용할 수 있습니다. 예를 들어, 한 사람의 이름, 주소, 생년월일을 하나의 Group으로 묶으면 각 사람에 대한 데이터를 일관된 방식으로 추출할 수 있습니다.

반복 그룹

이 요소는 여러 요소로 이루어진 반복 그룹을 찾도록 설계되었습니다. 반복 그룹은 하나의 엔터티가 여러 인스턴스를 가질 수 있지만, 인스턴스가 몇 개가 될지 알 수 없는 경우에 사용합니다. 각 인스턴스의 속성은 반복 그룹의 중첩 요소로 지정합니다. 예를 들어 이력서를 처리하는 경우, “Education” 반복 그룹을 만들고 그 안에 “School_name”, “Degree”, “Start_date”, “Graduation_date”와 같은 중첩 요소를 생성할 수 있습니다. 반면 찾고자 하는 데이터가 서로 다른 역할을 가진 여러 엔터티와 관련된 것이라면 반복 그룹은 적절한 선택이 아닙니다. 예를 들어 계약서에 당사자가 두 명(예: 구매자와 판매자)만 있는 경우, 하나의 반복 “Party” 그룹 대신 “Party1_Buyer” 그룹과 “Party2_Seller” 그룹을 각각 생성해야 합니다.

Input field

이 요소를 사용하면 다른 activity에서 추출된 field를 규칙을 구성하는 기본 요소로 활용할 수 있습니다. 예를 들어, Extraction Rules activity 앞에 Segmentation activity가 있는 경우, 일부 segment를 사용하여 검색 범위를 좁힐 수 있습니다.

목록에서 요소의 유형, 이름 및 위치 변경

요소의 유형을 변경하려면:
  • 요소를 마우스 오른쪽 버튼으로 클릭하고 단축 메뉴에서 Convert Element to를 선택합니다.
  • 목록에서 요소를 선택한 다음 이미지에서 강조 표시된 객체를 클릭합니다. 이렇게 하면 선택한 검색 요소를 강조 표시된 객체의 유형으로 변환할 수 있습니다. 강조 표시된 인식 단어를 클릭하면 검색 요소를 Text로 변환하고 동시에 선택한 단어를 이 검색 요소의 키워드 목록에 추가할 수 있습니다.
  • 명명된 엔터티에 해당하는 검색 요소의 경우 Entities 속성을 사용하여 명명된 엔터티의 유형을 변경합니다.
Note: 요소의 유형을 변경하더라도 그룹이 아닌 요소를 그룹 요소로 (또는 그 반대로) 변환하지는 않습니다.
요소의 이름을 변경하려면:
  • 요소를 마우스 오른쪽 버튼으로 클릭하고 단축 메뉴에서 Rename을 선택한 다음 새 이름을 입력합니다.
  • 요소를 선택한 후 이름을 클릭(또는 F2 키를 누른 후)하여 새 이름을 입력합니다.
요소 이름에는 영문자, 숫자 및 밑줄을 사용할 수 있습니다. 그러나 요소 이름은 숫자로 시작할 수 없습니다. 공백, 특수 기호(.,:- \ /), 및 예약된 이름은 사용할 수 없습니다. 목록에서 요소를 이동하려면:
  • 요소를 위나 아래로 끌어서 목록에서의 위치를 변경합니다.
  • 요소를 그룹 요소 위로 끌어 그룹 내부에 배치합니다.
Note: 요소는 위에서 아래 방향으로 검색됩니다. 즉, 다른 요소의 검색 조건에 사용되는 요소는 요소 목록에서 해당 요소보다 앞에 위치해야 합니다.