메인 콘텐츠로 건너뛰기
“Sick Note DE” activity 구성을 완료했으며, 이제 다른 유형의 진단서에 대한 두 번째 Extraction Rules 세트를 생성할 준비가 되었습니다. 네덜란드와 벨기에 진단서의 구조는 독일 문서와 상당히 다릅니다. 이 클래스 안에는 많은 변형이 있어서, 이번에는 어떤 field 도 추출하기 위해서도 Fast Learning activity 를 사용할 수 없습니다. 이 문서들에는 독일 진단서에는 없는 추가 정보가 포함되어 있으므로, activity 를 구성하면서 새로운 field 도 몇 개 추가하겠습니다. 먼저 모든 문서에 공통으로 존재하는 데이터를 추출한 다음, 데이터 폼에 새로운 field 를 추가하겠습니다. Activity Editor를 닫지 않고 다른 activity 로 전환할 수 있습니다. 스킬 이름 옆의 현재 activity 이름을 클릭하고 드롭다운 목록에서 “Sick Note BE-NL”을 선택하십시오. 그런 다음 세트에서 첫 번째 문서를 선택합니다.

발급 날짜 추출

이러한 문서의 날짜는 Date 요소를 사용해 쉽게 추출할 수 있으므로, 이번에는 이 field에 대해 자동으로 생성된 검색 요소를 사용하겠습니다.
  1. Fields 탭에서 Manage Fields 대화 상자를 열고, 이 작업에 사용할 “Date” field를 선택합니다. Save를 클릭합니다.
  2. Search Elements 탭으로 이동합니다. “Date” field에 대해 생성된 Date 유형의 검색 요소가 표시됩니다. 이 요소는 해당 field에 자동으로 매핑됩니다.
  3. “IssueDateGroup”이라는 이름의 Group 검색 요소를 만듭니다. 이 요소를 선택 사항으로 설정합니다.
  4. 실제 날짜를 찾는 데 도움이 되는 레이블을 찾기 위해 “kwDate”라는 이름의 Static Text 요소를 추가합니다.
  5. 이 문서 클래스에는 네덜란드어나 프랑스어 문서가 포함되므로 레이블 텍스트에는 여러 가지 옵션이 있을 수 있습니다. 각 옵션을 Text to find 대화 상자의 다른 줄에 입력할 수 있습니다. 첫 번째 줄에는 “Date”를, 두 번째 줄에는 “Datum”을 입력합니다.
  6. Search for parts of words 옵션을 비활성화합니다.
  7. “Date” 검색 요소를 그룹으로 드래그해서 “kwDate” 요소 아래에 놓습니다.
  8. “Date” 요소의 검색 영역을 지정합니다. a. 요소가 생성될 때 자동으로 추가된 Nearest to 관계를 삭제합니다. b. 검색하려는 요소에 가장 가까운 요소로 “kwDate” 요소를 선택합니다. c. 날짜는 키워드의 오른쪽이나 아래쪽에 위치할 수 있습니다. 검색 영역을 “kwDate” 요소 아래쪽으로 지정합니다. d. 검색 영역에는 키워드가 위치한 줄도 포함되어야 합니다. 요소 이름 오른쪽에 있는 하단 경계 아이콘을 클릭하고 Top Boundary of Region을 선택합니다. 줄이 고르지 않을 수 있으므로, 검색 영역을 줄 윗부분으로 약간 확장하기 위해 Below 값을 -10으로 설정합니다.
  9. 날짜가 올바르게 찾았는지 확인하려면 Match를 클릭합니다.
검색 요소 구조는 다음과 같습니다: AD_Tutorial_BE_IssueDate_Structure

병가 날짜 추출하기

이 날짜는 Key value 요소를 사용해 추출합니다. Key value 요소는 고정 텍스트 레이블과 해당 값을 모두 검색할 수 있습니다. 다만 값의 위치나 속성에 너무 큰 변형이 있는 경우에는 적합하지 않습니다. 이 문서들에서는 병가 날짜가 테이블의 각 셀에 날짜 구성 요소별로 나뉘어 들어 있습니다. 테이블 셀은 각 문서에서 비표준적인 위치에 있을 수 있지만, 셀들의 상대적 위치는 항상 동일합니다. 테이블 셀 경계가 아주 명확하다고 기대할 수는 없지만, Table Cell 요소는 경계가 다소 모호해도 사용할 수 있고, 이 액티비티를 더 많은 문서로 학습시키기로 했을 때에도 편리하므로 계속 사용하겠습니다. 그래서 Group 요소를 사용해 검색 요소의 계층 구조를 구성하겠습니다. 참고: Table Cell 요소는 문서 테이블 내부에 있는 field에만 사용할 수 있는 것은 아닙니다. 콘텐츠가 유사한 상자나 테이블과 비슷한 구조에 배치된 양식에서 데이터를 추출해야 할 때도 유용합니다. 이 상자들 사이에 구분선이 명확하다면 Table Cell 요소는 매우 효과적입니다.
  1. Manage Fields 대화 상자를 열고 현재 액티비티에 다음 field를 추가합니다:
    • Start Date
    • End Date
    Save를 클릭합니다.
  2. Search Elements 탭으로 이동하여 시작 날짜 추출을 위한 Group 요소를 만듭니다. 그룹에 포함된 요소에 대해 다음 Parameter를 설정합니다:
ParameterValue
Group search element:
NameStartDateGroup
Static Text search element:
NamekwStartDate
Text to findVanaf / From, A partir du, Van
Search for parts of wordsDisabled
Table Cell search elements:
NameStartDateDay
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search area”kwStartDate” 요소 아래, “kwStartDate”에 가장 가까운 위치
Table Cell search element:
NameStartDateMonth
Search patternNumber
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search area”kwStartDate” 요소 아래, “StartDateDay”의 오른쪽, “StartDateDay”에 가장 가까운 위치
Table Cell search element:
NameStartDateYear
Search patternNumber
Character count{2, 2, 4, 4}
Search for parts of wordsDisabled
Search area”kwStartDate” 요소 아래, “StartDateMonth”의 오른쪽, “StartDateMonth”에 가장 가까운 위치
참고: Table Cell 요소는 셀의 텍스트를 있는 그대로 반환합니다. 이 경우 검색 패턴에 숫자만 인식하는 Number가 포함되어 있으므로, 이 요소가 반환하는 텍스트는 숫자입니다.
  1. “StartDateGroup” 요소를 복사하고 이름을 “EndDateGroup”으로 바꿉니다.
  2. 그룹의 하위 요소 이름을 다음과 같이 바꿉니다: “kwStartDate”를 “kwEndDate”로, “StartDateDay”를 “EndDateDay”로, “StartDateMonth”를 “EndDateMonth”로, “StartDateYear”를 “EndDateYear”로 변경합니다.
  3. “kwEndDate” 요소의 Text to find 값을 “Tot en met / Till and incl., Jusqu’ au, Tot en met”로 변경합니다.
  4. “EndDateDay” 요소의 검색 영역(Search area)을 지정합니다. 이 요소는 “kwEndDate” 요소 아래에 위치해야 하며, 그와 가장 가까워야 합니다. 다른 관계는 모두 삭제합니다.
  5. Manage Fields 대화 상자를 열고 “Start Date Composed”라는 이름의 Data Composition Field를 추가합니다. 다음 요소들을 field에 매핑합니다:
    • “StartDateDay”를 Day
    • “StartDateMonth”를 Month
    • “StartDateYear”를 Year
    Save를 클릭합니다.
  6. “End Date Composed”라는 이름의 Data Composition Field를 만듭니다. 다음 요소들을 field에 매핑합니다:
    • “EndDateDay”를 Day
    • “EndDateMonth”를 Month
    • “EndDateYear”를 Year
    Save를 클릭합니다.
  7. “Start Date Composed”와 “End Date Composed” data composition field를 “Start Date” 및 “End Date” field에 매핑합니다.
검색 요소 구조는 다음과 같은 형태가 되어야 합니다: AD_Tutorial_BE_Dates_Structure

병가 유형 추출

독일어 문서에서와 마찬가지로 체크 표시를 사용하여 병가 유형을 추출합니다.
  1. Fields 탭에서 Manage Fields 대화 상자를 열고 “Type of Sick Note” 체크 표시 그룹을 활성화합니다. 현재 activity에서 사용할 수 있도록 그룹의 “Primary” 및 “Secondary” 체크 표시를 활성화합니다. Save를 클릭합니다.
  2. 독일어 문서에 대해 만들었던 것과 유사한 구조를 만들되, 네덜란드 및 벨기에 문서에서는 레이블(체크 표시 근처의 텍스트)이 먼저 나온다는 점을 염두에 두십시오. 이러한 그룹의 하위 요소 순서는 중요합니다. a. “TypeOfSickNoteGroup”이라는 이름의 Group 요소를 만듭니다. b. 이 그룹을 복사하고 이름을 “PrimaryGroup”으로 바꿉니다. 이를 “TypeOfSickNoteGroup” 안에 배치합니다. c. “PrimaryGroup” 그룹에 “kwCheckmark”라는 이름의 Static Text 요소를 추가합니다. d. 찾을 텍스트를 “eerste / Primary, première, primair”로 설정합니다.
Note: 이러한 문서에서는 체크 표시 근처의 텍스트가 체크 표시의 왼쪽에 위치하므로, 검색 영역을 오른쪽이 아니라 왼쪽으로 설정합니다. 아래 표에 따라 나머지 요소를 구성합니다:
ParameterValue
Static Text search element:
NameCheckmark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaRight of “kwCheckmark”, nearest to “kwCheckmark”
Static Text search element:
NameXMark
Text to findX
Character count{1, 1, 3, 3}
Search for parts of wordsDisabled
Search areaBelow the “kwCheckmark” top boundary, Below value = -15, Left of “kwCheckmark”, Above the “kwCheckmark” bottom boundary, Above value = -15, Nearest to “kwCheckmark”
Under what conditions”Checkmark”가 발견된 경우 요소를 찾지 않음
Region search element:
NameCheckmarkRegion
Search Conditions section of the Code Editorif Checkmark.IsFound then RSA: Checkmark.Rect; else if XMark.IsFound then RSA: XMark.Rect; else DontFind;
e. “PrimaryGroup”을 복사하여 “SecondaryGroup”으로 이름을 바꿉니다. 그 안의 “kwCheckmark” 요소의 찾을 텍스트를 “prolongation”, “verlenging”으로 변경합니다. f. 독일 병가서는 두 가지 유형으로 나뉘었습니다. 이에 반해 네덜란드 및 벨기에 병가서는 세 가지 유형으로 나뉩니다(추가 유형으로 ‘relapse’가 있음). 따라서 “PrimaryGroup” 그룹을 하나 더 복사하여 이름을 “RelapseGroup”으로 바꿉니다. g. 그 안의 “kwCheckmark” 요소의 찾을 텍스트를 “Herval”로 변경하고, 문장 중간에 나타나는 단어를 제외하기 위해 Match case 옵션을 활성화합니다. 검색 요소 구조는 다음과 같이 표시되어야 합니다: AD_Tutorial_BE_TypeOfSickNote_Structure
  1. Manage Fields 창을 열고 “Type of Sick Note” 체크 표시 그룹에 “Relapse” 체크 표시를 추가합니다. 현재 activity에서 사용할 수 있도록 그룹의 모든 체크 표시를 활성화한 후 Save를 클릭합니다.
  2. 체크 표시를 해당 Region 요소에 매핑하고, fields를 활성화할 때 자동으로 생성된 요소를 삭제합니다.

액티비티 테스트하기

필요한 검색 요소와 field를 모두 구성했습니다. 모든 문서를 선택하고 Match를 클릭한 다음 Fields 탭으로 전환하여 문서 이미지에서 field 영역을 검토합니다. 최적 경로의 가설에 속한 경우에만 해당 영역이 field로 전달된다는 점을 기억하세요. 결과에 만족하면 문서 이미지 상단의 복사 icon을 클릭하여 예측된 라벨링을 기준 라벨링에 복사합니다.