메인 콘텐츠로 건너뛰기

혼합 문서 집합에서 데이터 추출하기 (반정형 및 비정형)

하나의 Document skill이 반정형 문서와 비정형 문서를 모두 처리해야 하는 경우를 가정해 보겠습니다. 이 경우 먼저 Classify By Text and Image 활동을 사용하여 문서를 해당 유형으로 분류합니다. 이 활동은 텍스트와 기하학적(레이아웃) 특성을 결합하여, 품질이 다소 떨어지는 이미지나 서명 또는 도장과 같은 그래픽 개체로만 구분할 수 있는 서로 다른 유형의 문서까지도 분류할 수 있습니다. IF 활동을 사용하여 문서 처리 흐름을 분기하고 비정형 문서를 반정형 문서와 분리합니다. 각 분기(branch)는 “Processing semi-structured documents” 섹션과 “Processing unstructured documents” 섹션에 나와 있는 시나리오 중 하나를 사용해 처리할 수 있습니다. 예를 들어, 반정형 문서는 Fast Learning 활동으로 처리할 수 있고, 비정형 문서는 Segmentation 활동과 NLP용 Deep Learning 활동의 조합으로 처리할 수 있습니다. 이처럼 설명된 문서들은 모두 동일한 유형에 속하므로 동일한 출력 field 집합을 갖게 됩니다. 혼합 문서 처리 흐름

Document Skill 생성 단계

  1. Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 스킬을 생성합니다.
  2. 열린 Documents 탭에서 스킬 설정에 사용할 문서를 업로드합니다. 분류기 설정에 충분한 문서 세트를 확보하려면 각 변형(variant)마다 대략 동일한 수의 문서를 추가합니다.
  3. 이미지를 업로드한 후 Fields 탭으로 이동하여, 스킬로 추출할 field들을 생성·설정하여 스킬의 field 구조를 구성합니다. Reference 섹션에서 문서에 레이블을 지정합니다.
  4. Activities 탭으로 이동하여 문서 처리 흐름에 Classify activity를 추가합니다.
  5. Activity Editor를 열고 Classify activity를 구성합니다. 이를 위해 각 변형에 해당하는 클래스를 생성하고, 이 클래스들을 문서에 할당한 후 activity를 학습시킵니다.
  6. 다시 Activities 탭으로 돌아가 IF activity를 추가하고, 각 문서 변형을 처리할 개별 activity를 추가하여 처리 흐름에 조건 분기를 설정합니다.
  7. 생성한 activity들을 구성하고 학습시킵니다.
  8. Test Skill Using Selected Documents를 클릭하여 스킬을 테스트하고, 결과를 분석합니다.
  9. 테스트 결과가 충분히 만족스러우면 스킬을 게시합니다.

반정형 문서의 표 셀에서 텍스트 추출

표가 포함된 반정형 문서에서 데이터를 추출해야 하는데, 각 셀의 텍스트뿐만 아니라 셀 텍스트에 포함된 특정 숫자형 값도 함께 추출해야 하는 상황을 가정해 보겠습니다. 예를 들어 Closing Disclosure 문서에서 차입인에 대한 정보를 추출해야 하는 경우, 반정형 문서를 위한 Fast Learning 활동을 사용하여 대상 표 셀의 전체 텍스트를 추출한 다음, 비정형 문서를 위한 활동(이 예에서는 Named Entities (NER) 및 Address Parsing)을 사용하여 해당 셀에서 차입인의 이름과 주소의 일부를 추출할 수 있습니다. NER 및 Address Parsing을 사용하는 Fast Learning

Document Skill 생성 단계

  1. Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭해 새 스킬을 생성합니다.
  2. 자동으로 열리는 Documents 탭에서 스킬 설정에 사용할 문서를 업로드합니다.
  3. 이미지를 업로드한 후 Fields 탭으로 이동하여, 스킬로 추출할 field들을 생성·설정해 스킬의 field 구조를 정의합니다. Reference 섹션에서 문서에 레이블을 지정합니다.
  4. Activities 탭으로 이동하여 Fast Learning activity를 생성하고, 이 activity에서 추출할 fields를 지정합니다.
  5. Activity Editor를 열어 Fast Learning activity를 설정하고 학습시킵니다.
  6. 다시 Activities 탭으로 돌아가 Named Entities (NER) activity를 생성하고, 소스 field와 추출된 개체명을 저장할 fields를 지정합니다. 개체명을 선택한 fields에 매핑합니다.
  7. 주소를 포함하는 field가 있고 해당 주소를 구성 요소로 분리하려는 경우, Address Parsing activity를 생성하고 소스 field와 추출된 주소 구성 요소를 저장할 fields를 지정합니다. 주소 구성 요소를 선택한 fields에 매핑합니다.
  8. Test Skill Using Selected Documents를 클릭해 스킬을 테스트하고, 얻은 결과를 분석합니다.
  9. 테스트 결과가 충분히 만족스러우면 스킬을 게시합니다.

표, 제목, 머리글, 바닥글이 포함된 비정형 문서에서 데이터 추출하기

표, 제목, 머리글, 바닥글 등을 포함하는 비정형 문서(예: 계약서)에서 데이터를 추출해야 한다고 가정해 보겠습니다. 혼합형 샘플 문서 이 경우 Segmentation 액티비티를 설정하여 연속된 텍스트 단락을 감지하고, Extraction Rules 액티비티를 설정하여 반정형 구조의 삽입 요소를 감지합니다. 필요한 문서 조각이 감지되면, 해당 조각에서 field를 추출하기 위해 적절한 액티비티를 사용합니다.

Document Skill 생성 단계

  1. Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 Skill을 생성합니다.
  2. 자동으로 열리는 Documents 탭에서 Skill 설정에 사용할 문서를 업로드합니다.
  3. 이미지를 업로드한 후 Fields 탭으로 이동하여 Skill로 추출할 field들을 생성 및 설정하여 Skill의 field 구조를 정의합니다. Reference 섹션에서 문서에 레이블을 지정합니다.
  4. Activities 탭으로 이동하여 Segmentation activity를 만들고, 일반 텍스트 단락을 저장하는 데 사용할 fields를 지정합니다.
  5. Activity Editor를 열어 Segmentation activity를 설정하고 학습시킵니다.
  6. 다시 Activities 탭으로 돌아가 Extraction Rules activity를 생성하고, 문서의 반정형 영역(fragment)에서 추출한 데이터를 저장하는 데 사용할 fields를 지정합니다.
  7. Activity Editor를 열어 Extraction Rules activity를 설정하고 테스트합니다.
  8. Test Skill Using Selected Documents를 클릭하여 Skill을 테스트하고 결과를 분석합니다.
  9. 테스트 결과가 충분히 만족스러우면 Skill을 게시합니다.