메인 콘텐츠로 건너뛰기
여러 문서를 포함하는 파일에서 연속된 페이지를 분할하여 후속 처리가 가능한 개별 문서로 만들려면 Document Splitter Skill을 생성합니다.

동일 유형 문서 분리

예를 들어, 하나의 파일에 동일한 유형의 여러 문서가 포함되어 있을 수 있습니다(예: 특정 기간 동안 한 공급업체로부터 받은 송장 묶음). 각 송장에는 고유한 번호가 있고, 그 위에 페이지 번호가 인쇄되어 있을 수도 있습니다. 이러한 정보와 기타 데이터를 활용하여 문서를 서로 구분할 수 있습니다. Extraction Rules 액티비티를 사용하여 송장 번호와 페이지 번호를 추출하도록 구성할 수 있습니다. 또한 문서의 첫 페이지가 나머지 페이지와 크게 다른 경우에는 Classify 액티비티를 사용할 수 있습니다. 그런 다음 Splitter Script 액티비티를 사용하여 추출된 값을 분석하고, 현재 페이지가 새 문서의 첫 페이지인지 여부를 판단할 수 있습니다.

문서 분리 및 부속 문서 분리

처리해야 할 문서에, 보관은 해야 하지만 데이터 추출은 필요하지 않은 설명용 부속 문서가 함께 포함되어 있다고 가정해 보겠습니다. 이 경우 Classify activity를 사용하여 페이지를 필요한 유형의 문서와 그에 딸린 부속 문서로 분류할 수 있습니다. 또한 Extraction Rules activity를 사용하여 페이지에서 유용한 데이터를 찾을 수 있는지 확인할 수 있습니다. 유용한 데이터가 전혀 없는 페이지는 부속 페이지일 가능성이 높습니다. 그런 다음 Splitter Script activity를 사용하여 부속 페이지를 각 문서 뒤에 이어 붙이거나 별도의 문서로 분리할 수 있습니다.

문서 분리 및 문서 유형 결정

여러 종류의 문서가 포함된 하나의 파일이 있다고 가정해 보겠습니다(예: 대출 신청서에 신분증, 소득 증명서, 은행 명세서, 공과금 명세서 및 기타 문서가 함께 포함된 경우). 이 경우 먼저 Classify activity를 사용하여 각 페이지를 분류하고, Extraction Rules activity를 사용하여 현재 페이지가 새 문서의 첫 페이지인지 여부를 판단하는 데 필요한 데이터를 추출할 수 있습니다. 그런 다음 Splitter Script activity를 사용하여 문서를 분리하고 그 유형을 결정하기 위한 규칙을 구성할 수 있습니다.

페이지 재정렬 및 빈 페이지 제거

무작위로 스캔한 결과 페이지를 재정렬해야 하거나, 공백 또는 불량 페이지를 제거해야 하는 상황을 가정해 보겠습니다. 일반적으로 페이지를 재정렬하려면 올바른 순서를 나타내는 정보(예: 페이지 번호)가 페이지에 포함되어 있어야 합니다. 이 경우 페이지 번호를 추출하는 field를 생성할 수 있습니다. 또한 페이지에 어떤 텍스트든 존재하는지 검사하는 field를 생성하여 공백 페이지를 불량 페이지로 간주하고 추가로 제거할 수 있습니다. Splitter Script activity를 사용하면 페이지 번호에 따라 페이지를 재정렬하고, 모든 공백 또는 불량 페이지만 포함하는 별도의 문서를 생성할 수 있습니다. Document Splitter Workflow

문서 분할 Skill 생성 단계

  1. ABBYY Vantage Advanced Designer를 열고 시작 페이지에서 Create Splitter Skill을 클릭하여 새 Document Splitter Skill을 생성합니다.
  2. Documents 탭에서 파일을 업로드합니다. 각 문서 세트에는 하나의 비즈니스 트랜잭션에 속하는 파일만 포함되어야 합니다. 원본 파일 세트는 개별 페이지로 변환됩니다. Splitter Script activity를 제외한 모든 activity는 각 페이지를 개별적으로 처리한다는 점에 유의하십시오.
  3. 트랜잭션 내 각 페이지의 문서 유형을 결정하고, 한 문서가 끝나고 다른 문서가 시작되는 위치를 찾는 데 도움이 되는 데이터를 추출하도록 문서 처리 플로우를 구성합니다. a. 원본 페이지 플로우에 여러 유형의 문서가 포함되어 있거나 각 문서의 첫 페이지가 나머지 페이지와 크게 다른 경우, 페이지를 분류하기 위해 Classify activity를 설정합니다. b. 필요에 따라 field에 레이블을 지정하거나, 동일한 유형의 문서를 구분하거나 문서의 클래스를 결정하는 데 사용할 수 있는 데이터를 추출하는 다른 activity를 추가합니다.
  4. Splitter Script Properties 창에서 문서 유형을 추가하고, 페이지 플로우를 문서 세트로 변환할 스크립트를 구성하여 Splitter Script activity를 설정합니다. 스크립트는 트랜잭션의 모든 페이지에 접근할 수 있으며, 다른 activity에서 나온 데이터를 분석하여 어떤 페이지가 새 문서의 첫 페이지인지 판단할 수 있습니다.
  5. Test Skill Using Selected Documents를 클릭하여 Skill을 테스트하고, 얻은 결과를 분석합니다.
  6. 결과에 만족하면 Skill을 게시합니다.