NLP용 Deep Learning Activity - ABBYY Documentation

NLP용 Deep Learning Activity는 자연어 처리(NLP) 기술을 사용하여 비정형 문서에서 field를 추출하도록 스킬을 학습시키기 위해 설계되었습니다. Deep Learning Activity는 이전에 다른 Activity에서 이미 추출된 field에 대해서만 구성할 수 있습니다. 예를 들어, Segmentation Activity를 사용하여 텍스트 단락을 추출한 다음, 해당 단락에서 field를 추출하도록 Deep Learning Activity를 구성할 수 있습니다.

이 Activity는 Text 타입의 field만 지원합니다.

학습 요구 사항

Deep Learning 활동은 참조 라벨링을 사용하여 학습되므로, 모든 문서 이미지에서 field의 위치를 정확하게 지정하는 것이 중요합니다. 학습 세트에 포함된 라벨링된 문서 수가 많을수록 field 추출 품질이 향상됩니다. 권장 샘플 문서 수는 다음과 같습니다.

변동성이 높은 문서의 경우 최소 150개의 샘플 문서(변형 유형당 2–3개의 샘플 문서)가 필요합니다.
변동성이 낮은 문서의 경우 샘플 문서 1개만으로 학습을 시작할 수 있지만, 변형 유형당 최소 2–3개의 샘플 문서가 필요합니다.

별도의 문서 집합 사용

별도의 문서 집합을 사용하여 Deep Learning activity를 학습시킬 수 있습니다. 이를 위해 스킬 이름 옆의 드롭다운 목록에서 Deep Learning activity를 선택합니다. 그런 다음 Upload 버튼 왼쪽의 드롭다운 목록에서 필요한 문서 집합을 선택하거나 새로 만들려면 **Create Set…**을 클릭합니다. 이 탭에서는 Documents 섹션에 설명된 대로 문서를 업로드, 삭제 및 회전할 수 있습니다.

지원 언어

지원 언어: 영어, 프랑스어, 독일어, 일본어, 러시아어, 스페인어, 이탈리아어, 포르투갈어(표준), 네덜란드어.

딥 러닝 Activity 설정

딥 러닝 Activity를 설정하려면 다음 단계를 따르십시오.

Activities 탭에서 문서 처리 흐름에 딥 러닝 Activity를 추가합니다. 딥 러닝 Activity는 해당 딥 러닝 Activity에서 소스로 사용할 field를 추출하는 Activity 뒤에 배치해야 합니다.
Activity Properties 창의 Field 드롭다운 목록에서, field를 추출해야 하는 비정형 텍스트 조각에 해당하는 소스 field를 선택합니다.
소스 field에서 추출할 fields를 선택합니다. 소스 field와 동일한 중첩 레벨에 있거나 한 레벨 아래에 있는 fields를 선택할 수 있습니다.
Activity Editor를 클릭하고 Fields 탭으로 이동한 다음, 소스 field에서 추출해야 할 fields의 영역을 지정하여 문서를 라벨링합니다. Activity Editor에서의 라벨링 프로세스는 일반적인 문서 라벨링 프로세스와 동일하지만 한 가지 예외가 있습니다. 딥 러닝 Activity에서 추출할 fields는 소스 field의 영역 내부에 위치해야 합니다.

다음 지침은 학습에 사용할 문서 세트의 크기를 결정하는 데 도움이 됩니다.

NLP용 딥 러닝 Activity는 샘플 문서 1개만으로도 시작할 수 있지만, 각 variant마다 최소 2~3개의 샘플 문서가 필요합니다.
학습 세트에 문서가 1~150개 포함된 경우, Activity 학습을 시작할 수는 있지만, Advanced Designer에서 “We recommend adding atleast 150 documents”라는 경고가 표시됩니다.
학습 세트에 문서가 150~10,000개 포함된 경우, 즉시 Activity 학습을 시작할 수 있습니다. 이는 학습 세트에 포함하는 것을 권장하는 문서 수입니다.
학습 세트에 문서가 10,000개를 초과하여 포함된 경우, Advanced Designer에서 스킬이 불안정해질 수 있다는 경고가 표시됩니다.

Train Activity를 클릭하여 Activity를 학습시킵니다.
Activity 학습이 완료되면 Activity 테스트가 자동으로 시작됩니다. 테스트가 완료된 후 Results 탭으로 이동하여 해당 Activity의 field 추출 결과를 분석합니다. Results 탭에 표시되는 통계는 Results 탭에 표시되는 스킬의 일반 통계와 동일합니다. 필요한 경우 라벨링을 수정한 뒤 Activity를 다시 학습시킵니다.

이 Activity는 라벨링이 확정된 문서만 사용하여 학습 및 테스트할 수 있습니다. 예측 라벨링을 기반으로 참조 라벨링이 자동으로 생성된 경우(문서 컨텍스트 메뉴에서 해당 옵션을 사용해 예측 라벨링을 참조로 복사하지 않는 한), 해당 문서는 라벨링이 미확정 상태입니다. 각 문서의 라벨링 상태는 Documents 탭에서 확인할 수 있습니다. 문서의 라벨링을 확정하려면 Fields 탭에서 해당 문서를 검토해야 합니다.

Advanced Designer

​학습 요구 사항

​별도의 문서 집합 사용

​지원 언어

​딥 러닝 Activity 설정

학습 요구 사항

별도의 문서 집합 사용

지원 언어

딥 러닝 Activity 설정