하나의 Document skill이 반정형 문서와 비정형 문서를 모두 처리해야 하는 경우를 가정해 보겠습니다. 이 경우 먼저 Classify By Text and Image 활동을 사용하여 문서를 해당 유형으로 분류합니다. 이 활동은 텍스트와 기하학적(레이아웃) 특성을 결합하여, 품질이 다소 떨어지는 이미지나 서명 또는 도장과 같은 그래픽 개체로만 구분할 수 있는 서로 다른 유형의 문서까지도 분류할 수 있습니다.IF 활동을 사용하여 문서 처리 흐름을 분기하고 비정형 문서를 반정형 문서와 분리합니다. 각 분기(branch)는 “Processing semi-structured documents” 섹션과 “Processing unstructured documents” 섹션에 나와 있는 시나리오 중 하나를 사용해 처리할 수 있습니다. 예를 들어, 반정형 문서는 Fast Learning 활동으로 처리할 수 있고, 비정형 문서는 Segmentation 활동과 NLP용 Deep Learning 활동의 조합으로 처리할 수 있습니다.이처럼 설명된 문서들은 모두 동일한 유형에 속하므로 동일한 출력 field 집합을 갖게 됩니다.
표가 포함된 반정형 문서에서 데이터를 추출해야 하는데, 각 셀의 텍스트뿐만 아니라 셀 텍스트에 포함된 특정 숫자형 값도 함께 추출해야 하는 상황을 가정해 보겠습니다. 예를 들어 Closing Disclosure 문서에서 차입인에 대한 정보를 추출해야 하는 경우, 반정형 문서를 위한 Fast Learning 활동을 사용하여 대상 표 셀의 전체 텍스트를 추출한 다음, 비정형 문서를 위한 활동(이 예에서는 Named Entities (NER) 및 Address Parsing)을 사용하여 해당 셀에서 차입인의 이름과 주소의 일부를 추출할 수 있습니다.
Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭해 새 스킬을 생성합니다.
자동으로 열리는 Documents 탭에서 스킬 설정에 사용할 문서를 업로드합니다.
이미지를 업로드한 후 Fields 탭으로 이동하여, 스킬로 추출할 field들을 생성·설정해 스킬의 field 구조를 정의합니다. Reference 섹션에서 문서에 레이블을 지정합니다.
Activities 탭으로 이동하여 Fast Learning activity를 생성하고, 이 activity에서 추출할 fields를 지정합니다.
Activity Editor를 열어 Fast Learning activity를 설정하고 학습시킵니다.
다시 Activities 탭으로 돌아가 Named Entities (NER) activity를 생성하고, 소스 field와 추출된 개체명을 저장할 fields를 지정합니다. 개체명을 선택한 fields에 매핑합니다.
주소를 포함하는 field가 있고 해당 주소를 구성 요소로 분리하려는 경우, Address Parsing activity를 생성하고 소스 field와 추출된 주소 구성 요소를 저장할 fields를 지정합니다. 주소 구성 요소를 선택한 fields에 매핑합니다.
Test Skill Using Selected Documents를 클릭해 스킬을 테스트하고, 얻은 결과를 분석합니다.
테스트 결과가 충분히 만족스러우면 스킬을 게시합니다.
표, 제목, 머리글, 바닥글 등을 포함하는 비정형 문서(예: 계약서)에서 데이터를 추출해야 한다고 가정해 보겠습니다.이 경우 Segmentation 액티비티를 설정하여 연속된 텍스트 단락을 감지하고, Extraction Rules 액티비티를 설정하여 반정형 구조의 삽입 요소를 감지합니다. 필요한 문서 조각이 감지되면, 해당 조각에서 field를 추출하기 위해 적절한 액티비티를 사용합니다.