메인 콘텐츠로 건너뛰기
반정형 문서를 위한 Deep Learning Activity는 신경망을 사용하여 반정형 문서에서 field를 추출하는, 운영 환경 수준의 품질을 갖춘 인지 스킬을 구축하도록 설계되었습니다.
Note: 이 Activity는 복잡한 구조(예: 다른 표 안에 반복 구조로 포함된 중첩 표)와 Text 외의 type을 사용하는 field는 추출할 수 없습니다. 이러한 구조를 추출하려면 Extraction Rules Activity를 사용하십시오.

사용 사례

다음과 같은 경우 문서 처리 흐름에 이 activity를 추가합니다:
  • 해당 스킬이 특정 문서 유형의 여러 변형을 처리하는 데 사용될 예정인 경우
  • 스킬이 아직 학습되지 않은 문서 변형을 처리할 계획인 경우. 예를 들어, 여러 은행에서 제공하는 대출 계약서(각각 서로 다른 field 구조를 가질 수 있음)에서 field를 추출하도록 Fast Learning activity로 학습된 Document skill이 이미 있을 수 있습니다. 이 기존 스킬을 사용하여 스킬이 아직 본 적 없는 새로운 은행의 대출 계약서를 처리하기로 하면, 추출 품질이 기대에 못 미칠 수 있습니다. 추출 품질을 향상하려면 Fast Learning activity 대신 Deep Learning activity를 사용할 수 있습니다.

작동 방식

Deep Learning은 Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), 그리고 Natural Language Processing (NLP) 토큰을 결합합니다. 이러한 조합을 통해 Deep Learning은 이미지 패턴, 문서 구조, field 내용, 그리고 주변 레이블을 이해합니다. 학습에는 매우 많은 문서가 필요하지만, 아직 접해 보지 못한 새로운 문서 레이아웃에도 일반화할 수 있어, 학습 단계에서 모든 가능한 레이아웃의 완전한 집합을 준비할 수 없는 문서를 처리하는 유일한 방법인 진정한 템플릿리스 추출 방식을 제공합니다.

Training Requirements

최상의 결과를 얻으려면 가능한 한 많은 문서를 정확하게 라벨링하는 것이 중요합니다. 학습에 사용되는 샘플 문서 수는 field 추출 품질에 크게 영향을 미칩니다. 권장되는 샘플 문서 수는 다음과 같습니다:
  • 변동성이 큰 문서의 경우: 최소 200300개의 샘플 문서(각 변형 유형당 23개의 샘플 문서)가 필요합니다.
  • 변동성이 낮은 문서의 경우: 최소 10개의 샘플 문서(각 변형 유형당 2~3개의 샘플 문서)가 필요합니다.
절대 최소 요구 사항은 10개이지만, 라벨링된 문서를 500개 이상 확보하는 것이 좋으며, 학습 세트에는 처리하려는 모든 문서 변형 유형이 가능한 한 비슷한 개수로 포함되도록 해야 합니다(이상적으로는 각 변형 유형마다 적어도 몇 개의 샘플). 모든 가능한 변형을 제공할 필요는 없지만, 기술이 아직 보지 못한 변형에 대해서도 패턴을 도출하고 일반화할 수 있도록 충분히 다양한 문서를 제공해야 합니다. 예를 들어 인보이스의 경우, 학습 세트에 서로 다른 공급업체가 5001,000곳 정도 포함되어 있고 각 공급업체에 대해 23개의 샘플 문서가 있을 때, 기술이 새로운 공급업체에 대해서도 잘 일반화할 것으로 기대할 수 있습니다. Deep Learning은 일반화되는 경향이 있지만, 학습 세트에 문서의 가장 대표적인 변형 유형, 예를 들어 인보이스를 가장 많이 발행하는 공급업체들을 포함하는 것이 유리합니다.

학습 특성

적은 수의 문서만으로 학습되며 보다 단순한 문서 세트를 대상으로 하는 Fast Learning activity와 달리, Deep Learning activity 학습에는 훨씬 더 오랜 시간이 걸리고 더 많은 시스템 리소스(현재 기준 16코어 CPU와 64GB RAM)가 필요합니다. 신경망 학습은 반복적인 프로세스이며, 각 반복을 에포크(epoch)라고 합니다. 에포크가 시작될 때 문서 세트는 학습용 하위 집합과 검증용 하위 집합으로 나뉩니다. 에포크 동안 학습용 하위 집합의 모든 문서는 학습 알고리즘을 통해 처리됩니다. 그런 다음 검증용 하위 집합을 사용하여 신경망의 성능을 평가하고, 각 field와 전체 문서 세트에 대한 지표를 업데이트합니다. 자세한 내용은 Deep Learning activity 설정을 참조하십시오.