비정형 문서 처리 - ABBYY Documentation

비정형 문서를 처리하기 위한 스킬은 Advanced Designer에서만 생성할 수 있습니다. 이러한 스킬의 문서 처리 흐름에는 NLP를 사용하여 데이터를 추출하는 데 특화된 액티비티가 포함됩니다. 다음 액티비티는 지원하는 언어가 제한적입니다. 각 액티비티에서 지원하는 언어 목록은 해당 액티비티의 페이지에서 확인할 수 있습니다:

Segmentation activity
Deep Learning for NLP activity
Named Entities (NER) activity
Address Parsing activity

전체 문서에서 사전 학습된 개체명 추출

편지와 같은 비정형 문서에서 회사 이름과 주소를 추출하는 Document skill을 만들어야 한다고 가정해 보겠습니다. 이러한 개체명을 추출하려면, 개체명 인식을 위해 설계된 Named Entities (NER) activity를 설정할 수 있습니다. 주소를 거리, 도시, 주, 국가, 우편번호와 같은 구성 요소로 나누어 서로 다른 field로 추출해야 하는 경우에는 Address Parsing activity를 설정합니다.

Document Skill 생성 단계

Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 스킬을 생성합니다.
열린 Documents 탭을 사용하여 스킬 설정에 사용할 문서를 업로드합니다.
이미지를 업로드한 후 Fields 탭으로 이동하여, 스킬을 통해 추출될 field를 생성하고 설정하여 스킬용 field 구조를 구성합니다. Reference 섹션에서 문서에 레이블을 지정합니다.
Activities 탭으로 이동합니다. Named Entities (NER) activity를 생성하고, 추출된 개체명을 저장하는 데 사용할 field를 지정합니다. 개체명을 선택한 field에 매핑합니다.
주소를 포함하는 field가 있고 그 주소를 구성 요소로 분리하고 싶다면, Address Parsing activity를 생성하고 추출된 주소 구성 요소를 저장하는 데 사용할 field를 지정합니다. 주소 구성 요소를 선택한 field에 매핑합니다.
Test Skill Using Selected Documents를 클릭하여 스킬을 테스트하고, 얻은 결과를 분석합니다.
테스트 결과가 충분히 만족스러우면 스킬을 게시합니다.

특정 단락에서 사전 학습된 개체명 추출

추출하려는 개체명이 항상 동일한 단락에 위치한다고 가정해 봅시다. 예를 들어, 매매 계약서의 일부인 구매 가격 단락에서 금액을 추출해야 하는 경우, 먼저 Segmentation activity를 사용하여 대상 단락을 추출한 다음, Named Entities (NER) activity를 사용하여 대상 field를 추출합니다. 대상 데이터는 Named Entities (NER) 또는 Address Parsing activity에서 지원하는 개체명(예: 이름, 주소, 날짜 등)에 해당해야 합니다. Fast Learning 및 Extraction Rules activity를 사용하여 대상 단락을 추출할 수도 있습니다. 이를 위해서는 먼저 Fast Learning 또는 Extraction Rules activity로 텍스트 조각이 올바르게 추출되는지 확인한 다음, Named Entities (NER) 또는 Address Parsing activity를 생성하고 설정합니다. 대상 단락에 추출하면 안 되는 동일 유형의 다른 개체명도 포함되어 있는 경우, 다음 사용 사례를 참조하십시오. 사전 학습된 activity는 설정이 간편하고 학습이 필요 없기 때문에 좋은 출발점입니다. 하지만 사용자의 문서로 학습된 신경망이 더 높은 추출 정확도를 제공할 수 있습니다. 방대한 문서 세트를 보유하고 있다면, 다음 시나리오도 시도해 보고 문서에서 더 성능이 좋은 방법을 선택하는 것이 좋습니다.

Segmentation with NER and Address Parsing

Document Skill 생성 단계

Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 스킬을 생성합니다.
열리는 Documents 탭에서 스킬 설정에 사용할 문서를 업로드합니다.
이미지를 업로드한 후 Fields 탭으로 이동하여 스킬에서 추출할 field들을 생성·설정해 스킬의 field 구조를 정의합니다. Reference 섹션에서 문서에 라벨을 지정합니다.
Activities 탭으로 이동하여 Segmentation activity를 생성하고, 대상 단락을 저장할 field들을 지정합니다.
Activity Editor를 열어 Segmentation activity를 설정하고 학습시킵니다.
Activities 탭으로 돌아가 Named Entities (NER) activity를 생성한 다음, 소스 field와 추출된 named entities를 저장할 field들을 지정합니다. named entities를 선택한 field들에 매핑합니다.
주소를 포함하는 field가 있고 이 주소를 구성 요소로 분리하고자 하는 경우, Address Parsing activity를 생성하여 소스 field와 추출된 주소 구성 요소를 저장할 field들을 지정합니다. 주소 구성 요소를 선택한 field들에 매핑합니다.
Test Skill Using Selected Documents를 클릭해 스킬을 테스트하고 결과를 분석합니다.
테스트 결과가 충분히 만족스러우면 스킬을 게시합니다.

사용자 정의 개체명 추출

하나의 문단에 계약 당사자 둘 모두에 대한 정보가 포함되어 있고, 그중 한 조직의 이름만 추출해야 한다고 가정해 봅시다. 이와 함께 이메일 주소도 추출해야 합니다. 이 경우 먼저 Segmentation 활동을 사용하여 대상 문단을 추출해야 합니다. 그러나 Named Entities (NER) 활동을 사용하면 대상 문단에서 두 조직의 이름이 모두 추출되고, 이메일 추출에 대해서는 학습되어 있지 않기 때문에 적합하지 않습니다. 이런 경우에는 대신 NLP용 Deep Learning 활동을 사용해야 합니다. 또한 이 시나리오는 사전 학습된 개체명에 대한 추출 정확도를 향상시키는 데에도 사용할 수 있습니다. 사전 학습된 활동과 Deep Learning 활동을 모두 테스트한 후, 사용 중인 문서에서 더 성능이 좋은 쪽을 선택할 수 있습니다. 이 활동을 사용하려면 많은 수의 문서가 필요하다는 점을 염두에 두십시오(최소 50개의 문서가 필요하지만, 최소 150개 이상의 문서를 사용하는 것을 권장합니다). Named Entities (NER)와 NLP용 Deep Learning 두 활동을 모두 테스트한 후, 문서에서 더 성능이 좋은 활동을 선택할 수도 있습니다.

Document Skill 생성 단계

Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 Skill을 생성합니다.
열리는 Documents 탭을 사용하여 Skill 설정에 사용할 문서를 업로드합니다.
이미지를 업로드한 후 Fields 탭으로 이동하여 Skill을 통해 추출할 fields를 생성·설정하여 Skill의 field 구조를 구성합니다. Reference 섹션에서 문서에 레이블을 지정합니다.
Activities 탭으로 이동하여 Segmentation activity를 생성하고, 대상 단락을 저장하는 데 사용할 fields를 지정합니다.
Activity Editor를 열어 Segmentation activity를 설정하고 학습시킵니다.
다시 Activities 탭으로 돌아가서 Deep Learning for NLP activity를 생성하고, 이 activity에서 추출해야 하는 fields를 지정합니다.
Activity Editor를 열어 Deep Learning activity를 설정하고 학습시킵니다.
Test Skill Using Selected Documents를 클릭해 Skill을 테스트하고, 얻은 results를 분석합니다.
테스트 결과가 충분히 만족스러우면 Skill을 게시합니다.

Advanced Designer

​전체 문서에서 사전 학습된 개체명 추출

​Document Skill 생성 단계

​특정 단락에서 사전 학습된 개체명 추출

​Document Skill 생성 단계

​사용자 정의 개체명 추출

​Document Skill 생성 단계

전체 문서에서 사전 학습된 개체명 추출

Document Skill 생성 단계

특정 단락에서 사전 학습된 개체명 추출

Document Skill 생성 단계

사용자 정의 개체명 추출

Document Skill 생성 단계