메인 콘텐츠로 건너뛰기
Named Entities (NER) 액티비티는 자연어 처리(Natural Language Processing, NLP)를 사용하여 계약서, 편지, 주문서, 보도 자료 등 규칙으로 정의할 수 있는 특정 구조가 없는 비정형 문서에서 개체명을 추출하도록 설계되어 있습니다. Named Entities (NER) 액티비티로 이러한 문서를 처리하려면, 개체 값이 추출될 Skill의 fields에 개체명을 매핑해야 합니다. 그러면 이 액티비티가 문서를 분석하여 개체명을 해당 field로 추출합니다. 또한 다른 액티비티에서 추출한 field에 대해 개체명 추출을 설정할 수도 있습니다. 예를 들어, 추출해야 하는 조직 이름과 주소가 각 계약서의 첫 번째 단락에 위치해 있다는 것을 알고 있다고 가정해 보겠습니다. Segmentation 액티비티를 사용하여 첫 번째 단락을 추출한 다음, Named Entities (NER) 액티비티를 사용하여 이 단락에서 회사 이름과 주소를 추출할 수 있습니다. 이렇게 하면 개체명을 전체 문서에서 추출하는 것보다 더 신뢰할 수 있습니다. 개체가 추출되는 특정 영역을 직접 제어할 수 있기 때문입니다.
Note: 이 액티비티는 데이터 형식(data type)이 Text, Date 또는 Money로 설정된 Text 타입의 field만 지원합니다.

Named Entities (NER) 활동 설정

Named Entities (NER) 활동을 설정하려면 다음 단계를 수행합니다.
  1. Activities 탭에서 문서 처리 흐름에 Named Entities (NER) 활동을 추가합니다.
  2. Activity Properties 패널의 Source 드롭다운 목록에서 이 활동이 명명 엔터티를 추출할 대상을 선택합니다. 전체 문서 또는 다른 활동에서 추출된 단일 field 중 하나를 선택할 수 있습니다.
  3. Output field에서 명명 엔터티가 추출되어 저장될 fields를 선택합니다.
Note: Output fields는 source field와 동일한 중첩 수준에 있거나, 그보다 한 단계 아래 중첩 수준에 있어야 합니다.
  1. Create Mapping을 클릭합니다. 열리는 대화 상자에서 Entity to extract 목록을 사용하여 각 field로 어떤 명명 엔터티를 추출할지 선택합니다. Save를 클릭합니다. Edit Mapping을 클릭하여 언제든지 매핑을 수정할 수 있습니다.
  2. Test Skill을 클릭하여 스킬을 테스트하고 Results 탭에서 명명 엔터티 추출 결과를 분석합니다.

지원되는 개체명

Entity nameDescriptionExampleSupported data typesSupported languages
Person사람 이름John Doe, Jane SmithText영어, 러시아어, 독일어, 프랑스어, 스페인어, 일본어, 이탈리아어, 포르투갈어 (표준), 네덜란드어
Location위치/지명Anytown, Corporate PlaceText영어, 러시아어, 독일어, 프랑스어, 스페인어, 일본어, 이탈리아어, 포르투갈어 (표준), 네덜란드어
Organization조직/기관 이름ABBYY, Acme Corp.Text영어, 러시아어, 독일어, 프랑스어, 스페인어, 일본어, 이탈리아어, 포르투갈어 (표준), 네덜란드어
Address주소123 Main Str., Anytown AB 45678, 950 Acacia Avenue 50, Anytown, AB 12345, USAText영어, 러시아어, 독일어, 프랑스어, 스페인어, 일본어, 이탈리아어, 포르투갈어 (표준), 네덜란드어
Money금액$2670.00, 199 dollars 99 centsText, Amount of money영어, 러시아어, 독일어, 프랑스어, 스페인어, 일본어, 이탈리아어, 포르투갈어 (표준), 네덜란드어
Date날짜November 14, 2009, 11/14/2009Text, Date영어, 러시아어, 독일어, 프랑스어, 스페인어, 일본어, 이탈리아어, 포르투갈어 (표준), 네덜란드어
Duration기간(시간 길이)Twelve (12) months, 4 daysText영어, 러시아어, 독일어, 프랑스어, 스페인어, 일본어, 이탈리아어, 포르투갈어 (표준), 네덜란드어