메인 콘텐츠로 건너뛰기
Document skill을 사용하면 단일 유형의 정형 및 반정형 문서에서 field 값을 추출할 수 있습니다. 동일한 유형의 문서는 정확히 동일한 field 집합과 검증 규칙을 가지며, 구조도 동일합니다. 예를 들어 송장, 계약서, 선적서는 각각 서로 다른 세 가지 문서 유형입니다. 정형 문서는 각 문서 인스턴스에서 field의 위치가 항상 동일한 양식 문서를 말합니다. 설문지, 신청서, 세금 신고서 등이 정형 문서의 예입니다.
Tip: 정형 문서 처리를 다른 Vantage 기술과 결합해야 하는 경우, Advanced Designer에서 정형 문서용 스킬을 생성하고 편집할 수도 있습니다.
반정형 문서는 특정한 field 집합을 가지고 있지만, 해당 field의 레이블, 개수, 위치가 동일한 유형의 문서라 하더라도 문서마다 달라질 수 있는 문서입니다. 반정형 문서의 대표적인 예는 서로 다른 회사에서 발행한 송장으로, 품목 내역의 개수와 서식이 서로 다를 수 있습니다. 각 송장에는 송장 번호와 합계 금액이 인쇄되어 있지만, 이 정보의 정확한 위치는 송장마다 달라집니다. Document skill 학습을 시작하려면, 하나의 문서에서 field에 레이블을 지정합니다. 스킬을 학습시키는 과정에서 프로그램이 field 레이블 지정 작업을 더 쉽게 수행할 수 있도록 자동으로 field 위치를 제안하기 시작합니다.
Note: 현재 하나의 트랜잭션에서 Document skill로 처리할 수 있는 파일은 한 개뿐입니다. 여러 파일을 처리해야 하는 경우, 프로세스 스킬의 Extract activity를 사용하십시오.

문서 유형 변형

단일 유형의 문서에는 거의 항상 동일한 field 집합, 검증 규칙 및 구조가 있습니다. 하나의 문서 유형에 속한 변형은 예를 들어 문서가 발급된 연도 등에 따라 약간씩 다를 수 있습니다. 단일 유형의 문서는 이 문서 유형의 서로 다른 변형으로 학습된 하나의 Document skill로 처리할 수 있습니다. Vantage와 Advanced Designer는 하나의 문서 유형 내에서 어떤 수의 변형도 처리할 수 있습니다.
  • 수백 개의 변형이 있는 경우 Vantage에서 Online Learning으로 학습된 스킬은 거의 완벽하게 데이터를 추출할 수 있습니다.
  • 수천 개의 변형이 있는 경우 Deep Learning 활동으로 학습된 스킬은 문서 유형의 복잡도에 따라 대략 80%~90% 정도의 정확도로 데이터를 추출할 수 있습니다.
  • 문서 유형 중 가장 중요한 변형의 경우 Fast Learning 및/또는 Extraction Rules 활동으로 학습된 스킬을 사용하면 복잡한 문서에서도 데이터를 정확하게 추출할 수 있습니다.
  • 항상 동일한 위치에 동일한 유형의 정보가 있는 구조화 문서의 경우 최대 10개 변형 사용을 권장합니다. 고정 양식에 변형이 많은 경우에는 각 변형을 서로 다른 문서 유형으로 취급할 것을 권장합니다.
스킬을 학습하고 테스트할 때는 다음을 권장합니다.
  • 스킬을 학습할 때는 각 변형당 최소 2~3개의 문서를 포함하는 대표적인 문서 세트를 사용하십시오. 변형이 많고 세트에 모든 변형의 문서가 최소 한 개씩 포함되지 않은 경우에는 Deep Learning 활동을 사용할 수 있습니다. 이 활동은 이미지 패턴, 문서의 공간 구조, field 내용 및 주변 레이블을 이해하고 학습에 사용되지 않은 변형도 처리할 수 있습니다.
  • 스킬을 테스트할 때는 실제 운영 환경의 문서 흐름과 유사한 문서 분포를 사용하십시오. 학습 세트에서 특정 변형 문서가 차지하는 비율은 해당 변형이 실제 문서 흐름에서 나타나는 빈도를 대표해야 합니다. 이렇게 해야 정확도 추정이 유효해집니다. 이를 위해 실제 운영 중인 문서 흐름에서 무작위로 추출한 문서 샘플로 스킬을 테스트하십시오.
  • 변형 샘플이 하나라도 있는 것이 전혀 없는 것보다 낫습니다.