문서 유형 변형
- 수백 개의 변형에 대해서는 Vantage의 Online Learning을 사용해 학습된 스킬이 거의 완벽하게 데이터를 추출할 수 있습니다.
- 수천 개의 변형에 대해서는 Deep Learning activity를 사용해 학습된 스킬이 문서 유형의 복잡도에 따라 약 80%~90% 정확도로 데이터를 추출할 수 있습니다.
- 문서 유형의 가장 중요한 변형에 대해서는 Fast Learning 및/또는 Extraction Rules activities를 사용해 학습된 스킬이 복잡한 문서로부터의 정확한 데이터 추출을 보장합니다.
- 항상 동일한 위치에 동일한 유형의 정보가 있는 구조화된 문서의 경우, 최대 10개의 변형 사용을 권장합니다. 고정 양식에 변형이 많다면, 이들을 모두 서로 다른 문서 유형으로 취급할 것을 권장합니다. 자세한 내용은 구조화된 문서 처리를 참조하십시오.
Document skill 학습 및 테스트
- 학습 세트
- 테스트 세트
- 블라인드 세트(위의 두 세트 어디에도 포함되지 않은 샘플 문서가 포함된 추가 테스트 세트)
Training Set Requirements
- 반정형 문서를 위한 Deep Learning 액티비티:
- 변동성이 큰 문서의 경우, 최소 200
300개의 샘플 문서(변형당 23개의 샘플 문서)가 필요합니다. 일반적으로 세트에 약 1,000개의 문서를 포함할 것을 권장합니다. - 변동성이 작은 문서의 경우, 보통 100개의 샘플 문서로 충분합니다.
- 변동성이 큰 문서의 경우, 최소 200
- Segmentation 액티비티:
- 변동성이 큰 문서의 경우, 최소 100개의 샘플 문서를 준비할 것을 권장합니다.
- 변동성이 작은 문서의 경우, 최소 20개의 샘플 문서를 준비할 것을 권장합니다.
- NLP용 Deep Learning 액티비티:
- 변동성이 큰 문서의 경우, 최소 300개의 샘플 문서(변형당 2~3개의 샘플)를 준비할 것을 권장합니다.
- 변동성이 작은 문서의 경우, 최소 50개의 샘플 문서를 준비할 것을 권장합니다.
참고: 권장 샘플 문서 수를 확보하지 못하더라도, 변형당 샘플 문서를 1개라도 갖추는 것이 전혀 없는 것보다 훨씬 좋습니다.
테스트 세트 요구 사항
블라인드 세트 요구 사항
참고: Skill을 학습하는 문서와 테스트하는 문서는 반드시 서로 다른 문서를 사용해야 합니다.
Document skill 구성
- 스킬 이름 옆에 있는 설정 버튼을 클릭하여 스킬 설정을 확인하고 조정합니다.
- Documents 탭에서 문서를 업로드합니다.
- Fields 탭에서 값이 추출될 데이터 field를 위치와 함께 라벨링합니다.
- Activities 탭에서 문서 처리 흐름을 구성합니다.
- Results 탭에서 샘플 문서로 스킬을 테스트하여 성능을 확인합니다.
- Publish 탭에서 스킬을 게시합니다.
