NLP용 추출 규칙에서 Search 요소를 사용해 비정형 텍스트에서 객체를 추출하기 위한 조건을 정의합니다.
Search 요소를 사용하면 추출하려는 객체의 유형과 속성에 대한 조건을 설정할 수 있습니다. NLP 작업은 비정형 텍스트를 처리하므로, 검색 조건은 객체의 기하학적 관계가 아니라 다른 텍스트와의 상대적인 위치를 기준으로 지정합니다. 또한 보조 Search 요소를 사용해 검색 범위를 좁히고, 원하는 객체가 이러한 보조 요소 내부에 있거나, 그 이전 또는 이후에 위치하도록 지정할 수 있습니다.
금액의 예: $2670.00, 199달러 99센트.참고:Person, Organization, Address, Location, Date, Duration, Money 요소는 Named Entities (NER) 활동에서 설정할 수 있는 명명된 개체에 해당하며, 동일한 기술을 사용해 추출됩니다.
중첩된 검색 요소로 구성되는 집합입니다. 그룹을 구성하는 요소는 단순 요소와 Group 요소 모두가 될 수 있습니다. Group 요소 자체에는 별도의 속성이 없습니다. 데이터는 해당 Group 안에 중첩된 검색 요소의 설정에 따라 추출됩니다.Group 요소는 요소들 간의 논리적 계층 구조를 구성하여 디버깅과 탐색을 더 쉽게 하는 데 사용할 수 있습니다.예를 들어, 한 사람의 이름, 주소, 생년월일을 하나의 Group으로 묶으면 각 사람에 대한 데이터를 일관된 방식으로 추출할 수 있습니다.
이 요소는 여러 요소로 이루어진 반복 그룹을 찾도록 설계되었습니다. 반복 그룹은 하나의 엔터티가 여러 인스턴스를 가질 수 있지만, 인스턴스가 몇 개가 될지 알 수 없는 경우에 사용합니다. 각 인스턴스의 속성은 반복 그룹의 중첩 요소로 지정합니다.예를 들어 이력서를 처리하는 경우, “Education” 반복 그룹을 만들고 그 안에 “School_name”, “Degree”, “Start_date”, “Graduation_date”와 같은 중첩 요소를 생성할 수 있습니다.반면 찾고자 하는 데이터가 서로 다른 역할을 가진 여러 엔터티와 관련된 것이라면 반복 그룹은 적절한 선택이 아닙니다. 예를 들어 계약서에 당사자가 두 명(예: 구매자와 판매자)만 있는 경우, 하나의 반복 “Party” 그룹 대신 “Party1_Buyer” 그룹과 “Party2_Seller” 그룹을 각각 생성해야 합니다.
이 요소를 사용하면 다른 activity에서 추출된 field를 규칙을 구성하는 기본 요소로 활용할 수 있습니다. 예를 들어, Extraction Rules activity 앞에 Segmentation activity가 있는 경우, 일부 segment를 사용하여 검색 범위를 좁힐 수 있습니다.
요소를 마우스 오른쪽 버튼으로 클릭하고 단축 메뉴에서 Convert Element to를 선택합니다.
목록에서 요소를 선택한 다음 이미지에서 강조 표시된 객체를 클릭합니다. 이렇게 하면 선택한 검색 요소를 강조 표시된 객체의 유형으로 변환할 수 있습니다. 강조 표시된 인식 단어를 클릭하면 검색 요소를 Text로 변환하고 동시에 선택한 단어를 이 검색 요소의 키워드 목록에 추가할 수 있습니다.
명명된 엔터티에 해당하는 검색 요소의 경우 Entities 속성을 사용하여 명명된 엔터티의 유형을 변경합니다.
Note: 요소의 유형을 변경하더라도 그룹이 아닌 요소를 그룹 요소로 (또는 그 반대로) 변환하지는 않습니다.
요소의 이름을 변경하려면:
요소를 마우스 오른쪽 버튼으로 클릭하고 단축 메뉴에서 Rename을 선택한 다음 새 이름을 입력합니다.
요소를 선택한 후 이름을 클릭(또는 F2 키를 누른 후)하여 새 이름을 입력합니다.
요소 이름에는 영문자, 숫자 및 밑줄을 사용할 수 있습니다. 그러나 요소 이름은 숫자로 시작할 수 없습니다. 공백, 특수 기호(.,:- \ /), 및 예약된 이름은 사용할 수 없습니다.목록에서 요소를 이동하려면:
요소를 위나 아래로 끌어서 목록에서의 위치를 변경합니다.
요소를 그룹 요소 위로 끌어 그룹 내부에 배치합니다.
Note: 요소는 위에서 아래 방향으로 검색됩니다. 즉, 다른 요소의 검색 조건에 사용되는 요소는 요소 목록에서 해당 요소보다 앞에 위치해야 합니다.