메인 콘텐츠로 건너뛰기
ABBYY Vantage는 정형 문서를 처리하기 위한 머신 러닝 모드를 제공합니다. 예를 들어, 각 문서 인스턴스에서 field의 위치가 항상 동일한 문서가 이에 해당합니다. 이러한 문서의 예로는 설문지, 신청서, 세금 신고서 양식 등이 있습니다. 일부 정형 문서는 field와 그 위치에 약간의 차이가 있는 여러 변형이 있을 수 있습니다.

샘플 이미지

IRS Form 1040 - 2020 IRS Form 1040 - 2019 2020년과 2019년의 IRS Form 1040 두 가지 버전입니다.

구조화된 문서를 위한 스킬 만들기

구조화된 문서를 처리하기 위한 스킬은 Vantage와 Advanced Designer 모두에서 만들 수 있습니다. 다만, 이러한 스킬을 편집하려면 Advanced Designer를 사용해야 합니다. Vantage에서 구조화된 문서를 처리하기 위한 스킬을 만들려면 해당 스킬에 대해 Fixed-form documents 토글을 켜면 됩니다. 또한 일부 빈 양식을 업로드하고 라벨을 지정해야 합니다.
Note: 여러 변형을 가진 구조화된 문서를 처리하기 위한 스킬을 만드는 자세한 방법은 구조화된 문서를 처리하기 위한 Document skill 설정을 참조하세요.
Vantage에서 만든 스킬은 Advanced Designer에 표시됩니다. 이 스킬의 문서 처리 흐름에는 구조화된 문서를 처리하도록 특화된 Forms activity가 포함됩니다.
Note: Fixed-form documents 토글을 활성화하지 않은 경우 스킬의 문서 처리 흐름은 Fast Learning activity 하나로만 구성됩니다.
Advanced Designer에서는 구조화된 문서 처리를 다른 Vantage 기술과 결합해야 할 때 구조화된 문서를 위한 스킬을 만들고 편집할 수 있습니다. 이 경우 Forms activity는 Advanced Designer에서 생성하고 설정한 다른 activity와 함께 구성되어야 합니다.
Note: 문서 처리 흐름에 다른 activity와 함께 사용하는 Forms activity가 포함되어 있거나 여러 Forms activity가 포함되어 있는 경우, Vantage에서의 편집은 스킬 속성 변경으로만 제한되고 학습은 사용할 수 없습니다. 더 고급 편집이 필요한 경우에는 Advanced Designer를 사용하세요.

비정형 요소나 혼합 구조를 포함한 양식에서 데이터 추출

구조화된 문서에도 때때로 비정형 요소가 포함될 수 있습니다. 예를 들어, 문서 어디에나 배치될 수 있는 바코드나 도장과 같은 요소가 있으며, 이들도 감지해야 합니다. 또 다른 예로 혼합 문서가 있는데, 이 경우 문서의 일부는 구조화되어 있고 다른 일부는 가변 길이의 테이블(예: 행 수가 달라지는 테이블)로 이루어져 있습니다. 이러한 문서를 처리하려면 먼저 Forms Activity를 사용한 다음, 비정형 요소를 처리할 액티비티를 사용하십시오. 아래 단계에서는 Forms Activity를 사용하여 구조화된 field를 처리하고, Extraction Rules Activity를 사용하여 바코드를 감지합니다.

Document Skill 생성 단계

  1. Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 Document skill을 생성합니다.
  2. Activities 탭으로 이동하여 문서 처리 흐름에 Forms activity를 추가합니다.
  3. Activity Editor를 클릭합니다. Blank Form 탭에서 문서의 각 변형 유형마다 빈 샘플 폼을 하나씩 업로드합니다(서로 다른 변형을 10개 이상 업로드하는 것은 권장하지 않습니다). 데이터가 추출되어야 하는 field에 라벨을 지정합니다. 라벨링에 대한 가이드는 Labeling documents를 참조하십시오.
  4. Train Activity를 클릭합니다.
  5. Test Set 탭을 클릭하고 작성이 완료된 테스트 문서를 업로드합니다. 각 문서에서 모든 field에 올바르게 라벨이 지정되어 있는지 확인합니다. Test Activity를 클릭합니다. 작업이 완료되면 결과를 검토합니다.
  6. Activities 탭으로 돌아가 문서 처리 흐름에 Extraction Rules activity를 추가합니다.
  7. Activity Editor를 클릭하고 Extraction Rules activity를 구성합니다.
  8. Test Skill Using Selected Documents를 클릭합니다. 작업이 완료되면 결과를 검토합니다. 결과에 만족하면 skill을 게시합니다. 그렇지 않으면 라벨링을 조정한 다음, 해당 activity를 다시 학습하고 테스트합니다.

표 및 반복 그룹 작업

구조화된 문서를 처리할 때, 표 또는 반복 그룹의 최대 행 수나 그룹 인스턴스 수를 미리 알고 있고 표나 그룹의 경계가 고정되어 있다면 Vantage는 이러한 표와 반복 그룹을 처리할 수 있습니다. 양식의 모든 변형에서 발생할 수 있는 모든 행에 레이블을 지정해야 합니다.
참고: 처리 결과에는 데이터가 있는 행만 표시됩니다. 비어 있는 행은 모두 무시됩니다.
그룹 내 행 수나 인스턴스 수를 미리 알 수 없는 경우에는 다른 Vantage 기술을 사용해야 합니다.
참고: 현재는 Text 값이 있는 표만 처리할 수 있습니다. 표에 체크박스나 바코드가 있는 열이 포함되어 있다면, 대신 반복 그룹을 사용하십시오.

하나의 플로우에서 양식과 비정형 문서에서 데이터 추출하기

때때로 정보는 양식과 비정형 문서를 모두 사용하여 수집될 수 있습니다. 예를 들어, 설문지에 대한 답변은 인쇄된 양식으로 받거나, 자유 형식으로 작성된 비정형 문서로 받을 수 있습니다. 이와 같은 문서가 혼합되어 있는 경우를 처리하려면, 양식을 처리하는 Forms activity와 비정형 문서를 처리하는 Fast Learning 또는 Extraction Rules activity를 함께 사용하십시오. 그런 다음 Classify activity를 적용하여 양식과 비정형 문서를 구분해야 합니다.

Document Skill 생성 단계

  1. Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 Skill을 생성합니다.
  2. Activities 탭으로 이동하여 Forms activity를 문서 처리 흐름에 추가합니다.
  3. Activity Editor를 클릭합니다. Blank Form 탭에서 빈 양식 샘플을 업로드하고, 데이터가 추출되어야 하는 field에 레이블을 지정합니다. 레이블 지정에 대한 지침은 Labeling documents를 참조하십시오.
  4. Train Activity를 클릭합니다.
  5. Test Set 탭을 클릭하고 작성이 완료된 테스트 문서를 업로드합니다. 각 문서의 모든 field에 올바르게 레이블이 지정되었는지 확인합니다. Test Activity를 클릭합니다. 작업이 완료되면 결과를 검토합니다.
  6. Activities 탭으로 이동하여 Fast Learning activity를 문서 처리 흐름에 추가합니다.
  7. Activity Editor를 열어 activity를 구성하고 학습시킵니다.
  8. Activities 탭으로 이동하여 문서 처리 흐름의 시작 부분에 Classify activity를 추가합니다.
  9. Activity Editor를 클릭하고 Classify activity를 설정합니다. 각 문서 변형마다 클래스를 만들고 문서에 클래스를 할당한 다음, activity를 학습시켜야 합니다.
  10. 다시 Activities 탭으로 돌아가 문서 처리 흐름의 조건 분기를 설정하기 위해 IF activity를 추가합니다. 이 activity를 Forms activity와 Fast Learning activity에 연결합니다.
  11. Test Skill Using Selected Documents를 클릭합니다. 작업이 완료되면 결과를 검토합니다. 결과에 만족하면 Skill을 게시합니다. 그렇지 않으면 레이블을 조정하고 activity를 다시 학습시킵니다.