메인 콘텐츠로 건너뛰기
Document skills는 서로 다른 종류의 문서에서 field 값을 추출하는 데 사용됩니다. 여기에는 정형 문서(세금 신고서나 신청서 양식 등), 반정형 문서(예: 송장, 주문서, 항공 화물 운송장), 그리고 비정형 문서(계약서, 임대차 계약서, 이메일 메시지 등)가 포함됩니다. Document skills는 ABBYY Vantage 또는 Advanced Designer에서 생성할 수 있습니다. 비표준 문서처럼 레이아웃과 field 구조가 다양하게 변경되는 복잡한 Document skill을 만들어야 하는 경우에는 Advanced Designer를 사용하는 것이 좋습니다. Advanced Designer를 사용하면 Document skill에서 서로 다른 기술을 결합하고, 비정형 문서를 처리하기 위해 NLP를 추가하거나, 서로 다른 유형의 문서를 처리하기 위한 조건을 설정할 수도 있습니다(일반적인 시나리오에 대해서는 Use cases를 참조하십시오).

문서 유형 변형

동일한 유형의 문서는 거의 항상 동일한 field 집합, 검증 규칙 및 구조를 가지고 있습니다. 하나의 문서 유형 내 변형은 예를 들어 문서가 발행된 연도에 따라 약간씩 다를 수 있습니다. 동일한 유형의 문서는 이 문서 유형의 서로 다른 변형들로 학습된 하나의 Document skill로 처리할 수 있습니다. Vantage와 Advanced Designer는 하나의 문서 유형 내에서 사실상 제한 없이 많은 변형을 처리할 수 있습니다:
  • 수백 개의 변형에 대해서는 Vantage의 Online Learning을 사용해 학습된 스킬이 거의 완벽하게 데이터를 추출할 수 있습니다.
  • 수천 개의 변형에 대해서는 Deep Learning activity를 사용해 학습된 스킬이 문서 유형의 복잡도에 따라 약 80%~90% 정확도로 데이터를 추출할 수 있습니다.
  • 문서 유형의 가장 중요한 변형에 대해서는 Fast Learning 및/또는 Extraction Rules activities를 사용해 학습된 스킬이 복잡한 문서로부터의 정확한 데이터 추출을 보장합니다.
  • 항상 동일한 위치에 동일한 유형의 정보가 있는 구조화된 문서의 경우, 최대 10개의 변형 사용을 권장합니다. 고정 양식에 변형이 많다면, 이들을 모두 서로 다른 문서 유형으로 취급할 것을 권장합니다. 자세한 내용은 구조화된 문서 처리를 참조하십시오.

Document skill 학습 및 테스트

최상의 추출 결과를 얻으려면 세 가지 서로 다른 문서 세트를 사용해 Document skill을 학습하고 테스트할 것을 권장합니다:
  • 학습 세트
  • 테스트 세트
  • 블라인드 세트(위의 두 세트 어디에도 포함되지 않은 샘플 문서가 포함된 추가 테스트 세트)

Training Set Requirements

학습 세트에는 각 변형(variant)마다 최소 2~3개의 샘플 문서를 포함하는 대표적인 문서 세트를 사용해야 합니다. 변형이 많고 세트에 각 변형에 대한 샘플 문서가 최소 한 개씩 포함되어 있지 않다면, Deep Learning 액티비티 사용을 고려하십시오. 이 액티비티는 이미지 패턴, 문서 구조, field 내용 및 주변 레이블을 이해하며, 학습에 사용되지 않은 변형도 처리할 수 있습니다. 액티비티에 필요한 샘플 문서 수는 Document skill에서 사용하는 기술에 따라 달라집니다.
  • 반정형 문서를 위한 Deep Learning 액티비티:
    • 변동성이 큰 문서의 경우, 최소 200300개의 샘플 문서(변형당 23개의 샘플 문서)가 필요합니다. 일반적으로 세트에 약 1,000개의 문서를 포함할 것을 권장합니다.
    • 변동성이 작은 문서의 경우, 보통 100개의 샘플 문서로 충분합니다.
  • Segmentation 액티비티:
    • 변동성이 큰 문서의 경우, 최소 100개의 샘플 문서를 준비할 것을 권장합니다.
    • 변동성이 작은 문서의 경우, 최소 20개의 샘플 문서를 준비할 것을 권장합니다.
  • NLP용 Deep Learning 액티비티:
    • 변동성이 큰 문서의 경우, 최소 300개의 샘플 문서(변형당 2~3개의 샘플)를 준비할 것을 권장합니다.
    • 변동성이 작은 문서의 경우, 최소 50개의 샘플 문서를 준비할 것을 권장합니다.
참고: 권장 샘플 문서 수를 확보하지 못하더라도, 변형당 샘플 문서를 1개라도 갖추는 것이 전혀 없는 것보다 훨씬 좋습니다.

테스트 세트 요구 사항

테스트 세트에서는 샘플 문서 분포가 실제 운영 환경의 문서 흐름과 유사해야 합니다. 그래야 정확도 추정이 신뢰할 수 있습니다. 예를 들어, 특정 공급업체의 송장이 운영 환경 문서 흐름의 30%를 차지한다면, 테스트 세트의 샘플 문서 중 약 30%도 해당 공급업체의 송장이어야 합니다. 운영 환경의 문서 흐름에서 문서를 무작위로 추출해 스킬을 테스트하는 방식으로도 필요한 비율을 맞출 수 있습니다.

블라인드 세트 요구 사항

블라인드 세트의 경우, 이미 해당 Skill의 학습이나 테스트에 사용되지 않은 문서를 반드시 사용해야 합니다. 블라인드 세트에서 얻은 추출 결과는 해당 Skill의 품질을 평가하는 데 도움이 됩니다.
참고: Skill을 학습하는 문서와 테스트하는 문서는 반드시 서로 다른 문서를 사용해야 합니다.

Document skill 구성

시작 페이지에서 Document skill을 생성한 후, 다음 단계에 따라 스킬을 구성합니다:
  1. 스킬 이름 옆에 있는 설정 버튼을 클릭하여 스킬 설정을 확인하고 조정합니다.
  2. Documents 탭에서 문서를 업로드합니다.
  3. Fields 탭에서 값이 추출될 데이터 field를 위치와 함께 라벨링합니다.
  4. Activities 탭에서 문서 처리 흐름을 구성합니다.
  5. Results 탭에서 샘플 문서로 스킬을 테스트하여 성능을 확인합니다.
  6. Publish 탭에서 스킬을 게시합니다.
Document skill을 구성하고 게시한 후에는 ABBYY Vantage의 Skill Catalog에서 사용할 수 있게 됩니다. Skill Catalog에서 기본 제공 스킬, 읽기 전용 스킬, 파생 스킬을 포함한 스킬들을 확인하고 관리할 수 있습니다.