반구조화 문서 처리 - ABBYY Documentation

반구조화 문서에서 데이터를 추출할 때 Advanced Designer는 (예를 들어, 레이아웃이나 형식이 서로 크게 다른 다양한 문서 변형을 많이 포함하는) 복잡한 문서 세트를 처리하는 데 사용됩니다. 문서 처리 흐름에는 반구조화 문서에서 데이터를 추출하기 위한 작업들이 포함됩니다.

개발 이후에 새로운 문서 변형이 나타날 수 있음

동일한 유형이지만 레이아웃이 서로 다른 문서를 처리해야 하는데 Skill 개발 단계에서 모든 문서 변형을 제공하지 못한다고 가정해 보겠습니다. 이는 여러 공급업체의 송장을 처리하는 Skill을 만들 때 발생할 수 있습니다. 일반적으로 각 공급업체는 고유한 송장 템플릿을 사용하며, 향후 새로운 템플릿이 계속해서 나타날 것이라는 점은 확실합니다. 충분한 양의 문서 샘플이 있다면 Deep Learning activity를 사용한 다음 Fast Learning activity를 사용할 수 있습니다. Deep Learning activity는 예기치 않은 문서 변형을 처리하는 역할을 하고, Fast Learning activity는 고객이 제공한 특정 문서 변형을 학습하여 해당 문서들에 대해 더 높은 처리 품질을 제공합니다. Fast Learning activity는 수동 검토 단계에서 생성되는 Online Learning 피드백 루프를 통해서도 학습할 수 있습니다.

Document Skill 생성 단계

Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 Skill을 생성합니다.
열린 Documents 탭에서 스킬 설정에 사용할 문서를 업로드합니다.
이미지를 업로드한 후 Fields 탭으로 이동하여, 스킬로 추출할 field들을 생성·구성해 스킬의 field 구조를 설정합니다. Reference 섹션에서 문서에 레이블을 지정합니다.
Activities 탭으로 이동하여 반정형 문서를 위한 Deep Learning activity를 문서 처리 흐름에 추가합니다.
Activity Editor를 열어 Deep Learning activity를 구성하고 학습시킵니다. 이 activity 학습에 사용하는 문서 세트에는 최소 100개의 레이블링된 문서가 포함되어야 합니다.
Activities 탭으로 돌아가 문서 처리 흐름에 Fast Learning activity를 추가합니다.
Activity Editor를 열어 activity를 구성하고 학습시킵니다.
Test Skill Using Selected Documents를 클릭하여 스킬을 테스트하고, 얻은 결과를 분석합니다.
테스트 결과가 충분히 만족스러우면 스킬을 게시합니다.

일부 문서에는 머신 러닝으로 추출할 수 없는 구조가 포함되어 있습니다

문서 세트에 있는 문서 변형의 대부분은 Deep Learning 및 Fast Learning activity로 처리할 수 있다고 가정해 보겠습니다. 하지만 일부 문서에는 중첩 테이블이 있거나, 학습에 사용된 다른 모든 문서와 전혀 다른 방식으로 구성되어 있을 수 있습니다. 이러한 문서를 처리하려면 Classification activity를 사용하여 이 문서들을 기본 문서 세트에서 분리해야 합니다.

문서 변형이 서로 다른 회사에서 발행되고, 문서에 회사 이름 및/또는 주소가 인쇄되어 있는 경우에는 Classify By Company activity를 사용하십시오. 예를 들어, 서로 다른 은행의 은행 명세서를 처리하는 경우, 별도로 처리해야 하는 모든 변형을 포괄하도록 해당 은행들의 데이터베이스 목록을 쉽게 제공할 수 있습니다.
기타 모든 경우에는 Classify By Text and Image activity를 사용하십시오. 이 멀티모달 분류 기술은 텍스트, 공간 구조, 이미지 패턴을 사용하여 서로 다른 문서 변형을 구분하므로, 일반적인 패턴에서 벗어나는 문서 변형도 쉽게 인식할 수 있습니다.

IF activity를 사용하여 문서 처리 흐름을 분기하고, 처리 품질이 낮은 문서 변형(예: 앞에서 언급한 중첩 테이블이 있는 문서)을 분리한 다음, 이러한 문서에서 대상 field 및 테이블을 추출하기 위해 Extraction Rules activity를 사용하십시오.

Deep Learning 및 Extraction Rules와 함께 사용하는 IF

Document Skill 생성 단계

Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 Skill을 생성합니다.
열리는 Documents 탭에서 Skill 설정에 사용할 문서들을 업로드합니다. 분류기를 설정하기에 문서 세트가 충분한지 확인하려면 각 변형(variant)마다 문서를 대략 동일한 개수로 추가합니다.
이미지를 업로드한 후 Fields 탭으로 이동하여, Skill로 추출할 field들을 생성·구성하여 Skill의 field 구조를 정의합니다. Reference 섹션에서 문서에 라벨을 지정합니다.
Activities 탭으로 이동하여 문서 처리 흐름에 Classify activity를 추가합니다.
Activity Editor를 열고 Classify activity를 구성합니다. 이를 위해 각 변형마다 해당 class를 생성하고, 이 class들을 문서에 할당한 다음 activity를 학습시킵니다.
Activities 탭으로 돌아가서 IF activity를 추가하고, 각 문서 변형을 처리하기 위한 개별 activity들을 추가하여 처리 흐름에 조건 분기를 설정합니다.
생성한 activity들을 구성합니다.
Test Skill Using Selected Documents를 클릭하여 Skill을 테스트하고, 결과를 분석합니다.
테스트 결과가 충분히 만족스러우면 Skill을 게시합니다.

머신 러닝을 사용할 만큼 충분한 문서가 없는 경우

소수의 문서 변형에 대해서만 데이터를 추출해야 하지만 Deep Learning activity를 학습시킬 만큼 충분한 문서는 없고, 대신 각 문서 변형에 대한 데이터 추출의 기본 원칙을 설명할 수 있을 정도의 전문 지식은 있다고 가정해 보겠습니다. 예를 들어, 서로 다른 연도의 세금 신고서를 처리하는 Skill을 생성하는 경우, Classify activity를 사용하여 모든 문서를 서로 다른 변형으로 분류할 수 있습니다. 그런 다음 각 문서 변형에 맞게 구성된 Extraction Rules activities 집합을 순서대로 배치합니다. Vantage가 Skill을 추가로 학습하도록 하려면 Fast Learning activity를 추가하십시오.

Document Skill을 생성하는 단계

Advanced Designer를 엽니다. 시작 페이지에서 Create Document Skill을 클릭하여 새 스킬을 생성합니다.
열리는 Documents 탭에서 스킬 설정에 사용할 문서를 업로드합니다. 분류기를 설정하기에 문서 세트가 충분한지 확인하려면 각 변형(variant)마다 대략 동일한 수의 문서를 추가합니다.
이미지를 업로드한 후 Fields 탭으로 이동하여, 스킬로 추출할 field들을 생성·설정하여 스킬의 field 구조를 구성합니다. Reference 섹션에서 문서에 레이블을 지정합니다.
Activities 탭으로 이동하여 문서 처리 흐름에 Classify activity를 추가합니다.
Activity Editor를 열고 Classify activity를 설정합니다. 이를 위해 각 변형에 해당하는 클래스를 생성하고, 이 클래스들을 문서에 할당한 다음 activity를 학습시킵니다.
Activities 탭으로 돌아가 Extraction Rules activity를 생성합니다. 이 워크플로 항목에 다른 Extraction Rules activity도 추가합니다. Classify activity에 의해 채워지는 field를 선택하고, 해당 값들을 Extraction Rules activity에 매핑하여 분기 조건을 설정합니다. 별도의 추출 규칙이 필요하지 않은 특정 클래스의 문서에 대해서는 이 단계를 건너뛸 수도 있습니다.
생성한 추출용 activity들을 설정합니다.
Test Skill Using Selected Documents를 클릭하여 스킬을 테스트하고, 얻은 결과를 분석합니다.
테스트 결과가 충분히 만족스러우면 스킬을 게시합니다.

Advanced Designer

​개발 이후에 새로운 문서 변형이 나타날 수 있음

​Document Skill 생성 단계

​일부 문서에는 머신 러닝으로 추출할 수 없는 구조가 포함되어 있습니다

​Document Skill 생성 단계

​머신 러닝을 사용할 만큼 충분한 문서가 없는 경우

​Document Skill을 생성하는 단계

개발 이후에 새로운 문서 변형이 나타날 수 있음

Document Skill 생성 단계

일부 문서에는 머신 러닝으로 추출할 수 없는 구조가 포함되어 있습니다

Document Skill 생성 단계

머신 러닝을 사용할 만큼 충분한 문서가 없는 경우

Document Skill을 생성하는 단계