메인 콘텐츠로 건너뛰기
스킬을 학습하고 테스트하려면 라벨이 지정된 문서 세트가 필요합니다. 즉, field의 위치와 해당 데이터 유형이 명시적으로 표시된 문서들이 필요합니다. 이러한 세트를 얻는 가장 간단한 방법은 일부 문서를 수동으로 라벨링하는 것이지만, 이는 시간이 많이 걸릴 수 있습니다. 특히 많은 양의 라벨링된 문서를 필요로 하는 딥 러닝(Deep Learning)을 사용하려는 경우에는 더욱 그렇습니다. 시간과 노력을 절약하기 위해 ABBYY는 다른 스킬이나 수동으로 검토된 처리 결과에서 라벨링된 문서를 재사용할 수 있는 여러 방법을 제공합니다.

문서 수동 라벨링

업로드된 각 문서에서 모든 field의 위치를 표시하고, 해당 field에 포함될 것으로 예상되는 데이터 유형을 지정하여 라벨링합니다. 신뢰할 수 있는 학습 결과를 얻으려면 다음 지침을 따르십시오.

폴더에서 레이블이 지정된 문서 가져오기

레이블이 지정된 문서는 다음과 같은 출처에서도 얻을 수 있습니다. 각 경우에 레이블이 지정된 문서를 폴더로 내보내야 합니다. 그런 다음 해당 폴더에서 레이블이 포함된 문서를 가져와 Skill 학습에 사용할 수 있습니다.

Skill 학습 세트

운영 환경에서 사용할 Skill을 게시할 때는 일반적으로 학습 세트를 제거하고, 게시 버전에는 몇 개의 샘플 문서만 남겨 둡니다. 동일한 학습 세트로 Skill의 새 버전을 학습시킬 계획이라면, 학습 세트를 폴더로 내보낼 수도 있습니다. 문서와 해당 레이블링을 폴더로 내보내려면, 문서 세트 이름 옆의 더 보기 아이콘을 클릭하고 Export Set with Labeling을 선택합니다. 대상 폴더에는 다음과 같은 파일과 하위 폴더가 포함됩니다.
  • documentdefinition.json
  • skillsettings.json
  • 각 문서에 대해 문서 이미지와 documentinfo.json, labeling.json 파일을 포함하는 <Document name> 하위 폴더

수동 검토된 처리 결과

처리 결과가 수동 검토 담당자에 의해 수정되면, 레이블이 지정된 문서 세트가 생성됩니다. 이러한 레이블링된 문서를 재사용하려면, field 데이터를 JSON으로 내보내도록 설정하고 각 문서에 대한 값, 메타데이터 및 field 구조 옵션을 활성화한 다음, 문서 이미지를 임의의 이미지 형식으로 내보내도록 설정합니다. 대상 폴더에는 각 트랜잭션마다 별도의 하위 폴더가 생성됩니다. 각 <Transaction ID> 하위 폴더에는 다음이 포함됩니다:
  • field 데이터가 포함된 <Applied skill name>.json 파일
  • 선택한 형식에 따라 내보낸 이미지: <Applied skill name>.pdf, <Applied skill name>.tiff, 또는 각 페이지에 대한 page_*.jpg 파일이 있는 <Applied skill name>/Pages 하위 폴더

FlexiCapture

이전에 FlexiCapture에서 라벨링한 문서를 재사용할 수 있습니다. 자세한 내용은 FlexiCapture에서 라벨링된 문서 가져오기를 참고하십시오.

가져오는 방법

내보내기 과정에서 생성된 폴더에서 라벨링된 문서를 가져오려면 All Documents 집합을 선택하고, Upload 버튼 옆의 드롭다운 메뉴를 클릭한 다음 드롭다운 목록에서 Import Labeled Documents From Folder… 옵션을 선택합니다. 그런 다음, 이전에 생성한 폴더를 선택합니다.
내보내기 과정에서 생성된 폴더는 변경하지 마십시오. 하위 폴더 구조를 변경하거나 파일 이름을 변경하면 가져오기 과정에서 오류가 발생할 수 있습니다.

중복 항목이 처리되는 방식

가져온 문서 중 기존 문서와 이름이 같은 것이 있으면, Advanced Designer가 기존 문서의 레이블링을 업데이트할지, 아니면 중복 문서를 새 문서로 가져올지 여부를 묻습니다. Update Labeling을 선택하면:
  • 이름이 동일한 field의 경우, 기존 문서에서의 위치와 설정이 가져온 문서의 값으로 덮어쓰여집니다.
  • 가져온 문서에는 있지만 기존 문서에는 없는 field는 기존 문서에 추가됩니다.
Import As New Documents를 선택하면, 중복 문서는 이름을 변경하여, 기존 레이블링을 그대로 유지한 채 가져옵니다.