NLP 액티비티를 사용하여 비정형 문서에서 데이터를 추출하는 Document skill을 생성합니다.
비정형 문서를 처리하기 위한 스킬은 Advanced Designer에서만 생성할 수 있습니다. 이러한 스킬의 문서 처리 흐름에는 NLP를 사용하여 데이터를 추출하는 데 특화된 액티비티가 포함됩니다.다음 액티비티는 지원하는 언어가 제한적입니다. 각 액티비티에서 지원하는 언어 목록은 해당 액티비티의 페이지에서 확인할 수 있습니다:
편지와 같은 비정형 문서에서 회사 이름과 주소를 추출하는 Document skill을 만들어야 한다고 가정해 보겠습니다. 이러한 개체명을 추출하려면, 개체명 인식을 위해 설계된 Named Entities (NER) activity를 설정할 수 있습니다. 주소를 거리, 도시, 주, 국가, 우편번호와 같은 구성 요소로 나누어 서로 다른 field로 추출해야 하는 경우에는 Address Parsing activity를 설정합니다.
추출하려는 개체명이 항상 동일한 단락에 위치한다고 가정해 봅시다. 예를 들어, 매매 계약서의 일부인 구매 가격 단락에서 금액을 추출해야 하는 경우, 먼저 Segmentation activity를 사용하여 대상 단락을 추출한 다음, Named Entities (NER) activity를 사용하여 대상 field를 추출합니다. 대상 데이터는 Named Entities (NER) 또는 Address Parsing activity에서 지원하는 개체명(예: 이름, 주소, 날짜 등)에 해당해야 합니다.Fast Learning 및 Extraction Rules activity를 사용하여 대상 단락을 추출할 수도 있습니다. 이를 위해서는 먼저 Fast Learning 또는 Extraction Rules activity로 텍스트 조각이 올바르게 추출되는지 확인한 다음, Named Entities (NER) 또는 Address Parsing activity를 생성하고 설정합니다.대상 단락에 추출하면 안 되는 동일 유형의 다른 개체명도 포함되어 있는 경우, 다음 사용 사례를 참조하십시오.사전 학습된 activity는 설정이 간편하고 학습이 필요 없기 때문에 좋은 출발점입니다. 하지만 사용자의 문서로 학습된 신경망이 더 높은 추출 정확도를 제공할 수 있습니다. 방대한 문서 세트를 보유하고 있다면, 다음 시나리오도 시도해 보고 문서에서 더 성능이 좋은 방법을 선택하는 것이 좋습니다.
하나의 문단에 계약 당사자 둘 모두에 대한 정보가 포함되어 있고, 그중 한 조직의 이름만 추출해야 한다고 가정해 봅시다. 이와 함께 이메일 주소도 추출해야 합니다. 이 경우 먼저 Segmentation 활동을 사용하여 대상 문단을 추출해야 합니다. 그러나 Named Entities (NER) 활동을 사용하면 대상 문단에서 두 조직의 이름이 모두 추출되고, 이메일 추출에 대해서는 학습되어 있지 않기 때문에 적합하지 않습니다. 이런 경우에는 대신 NLP용 Deep Learning 활동을 사용해야 합니다.또한 이 시나리오는 사전 학습된 개체명에 대한 추출 정확도를 향상시키는 데에도 사용할 수 있습니다. 사전 학습된 활동과 Deep Learning 활동을 모두 테스트한 후, 사용 중인 문서에서 더 성능이 좋은 쪽을 선택할 수 있습니다.이 활동을 사용하려면 많은 수의 문서가 필요하다는 점을 염두에 두십시오(최소 50개의 문서가 필요하지만, 최소 150개 이상의 문서를 사용하는 것을 권장합니다). Named Entities (NER)와 NLP용 Deep Learning 두 활동을 모두 테스트한 후, 문서에서 더 성능이 좋은 활동을 선택할 수도 있습니다.