메인 콘텐츠로 건너뛰기
동일한 유형의 문서라 하더라도 field 위치가 크게 다른 문서들을 단일 Document skill로 처리해야 하는 경우, 각 field의 추출 속성을 지정하기가 어려울 수 있습니다. 예를 들어, 서로 다른 공급업체가 발행한 송장을 동일한 skill로 처리할 수 있지만, 동일한 field가 공급업체마다 서로 다른 위치에 배치되어 있을 수 있습니다. 이러한 skill의 추출 정확도를 향상시키기 위해, 해당 skill이 처리하는 문서를 클래스(하나의 문서 유형 내에서 공통 속성을 가진 하위 그룹)로 분류하고, 각 클래스별로 별도의 추출 Activity를 설정할 수 있습니다. 또한 특정 클래스의 추출 정확도를 향상시켜야 할 때에도 문서를 클래스로 분류해야 할 수 있습니다. 예를 들어, 서로 다른 은행에서 발행한 은행 명세서를 단일 skill로 처리하는 경우를 생각해 볼 수 있습니다. 이때 특정 명세서 유형의 추출 정확도가 다른 유형보다 낮을 수 있습니다. 해당 skill의 추출 정확도를 개선하기 위해, 명세서를 클래스로 분류한 다음, 추출 정확도가 만족스럽지 않은 클래스에 대해 Extraction Rules Activity를 설정할 수 있습니다. Classify By Text and Image Activity는 각기 별도의 추출 Activity 구성이 필요한 skill의 문서를 클래스로 분류하도록 설계된 Activity입니다.

설정 개요

Classify By Text and Image activity를 만들고 설정하려면 다음 단계를 따르십시오.
  1. 문서 처리 흐름에서 Classify By Text and Image activity를 생성합니다.
  2. 이미지를 업로드하고 클래스를 생성한 다음, 예상 클래스를 문서에 할당합니다.
  3. activity를 학습시키고 학습 결과를 분석합니다.
  4. 분류 결과를 개선해야 하는 경우 속성을 수정합니다.

Activities 탭을 사용하여 생성 및 설정

워크플로우에서 Classify By Text and Image 액티비티를 생성합니다. 생성되면 분류 결과를 기록하는 field가 Skill 구조에 만들어집니다. 이 field의 값이 문서를 분류하는 데 사용됩니다. 이 field는 Skill field 구조에 표시되지만, 숨김으로 표시되며 편집할 수 없습니다.
참고: Classify By Text and Image 액티비티는 클래스에 대한 신뢰도 값을 반환하지 않고 클래스 이름만 반환합니다.
Activity Editor로 이동하려면 Activity Editor를 클릭하거나 액티비티 블록을 두 번 클릭합니다.

Activity Editor를 사용하여 설정하기

1단계: 문서 업로드

도구 모음에서 Upload를 클릭하고 업로드 방법을 선택하여 Activity를 설정하는 데 사용할 문서를 업로드합니다. a. Upload Documents… 열리는 대화 상자에서 적절한 문서를 선택합니다. 선택된 문서는 No Class 목록에 표시됩니다. b. Upload Folder Like Classes… 열리는 대화 상자에서 하위 폴더에 이미지가 포함된 폴더를 선택합니다. 각 하위 폴더에는 하나의 클래스에 해당하는 이미지가 포함되어야 합니다. 이 방식으로 문서를 업로드하면 하위 폴더에 해당하는 클래스가 자동으로 생성되며, 해당 하위 폴더의 문서는 그 클래스에 속하는 것으로 분류됩니다. 따라서 Activity Editor에서 클래스를 수동으로 생성할 필요가 없습니다.

단계 2: 클래스 만들기

도구 모음에서 Create Class를 클릭하거나 Assign class 창에서 Create를 클릭하여, 처리할 서로 다른 문서 유형에 해당하는 클래스를 생성합니다. 문서를 Upload folder like classes 옵션을 사용하여 업로드한 경우, 필요한 모든 클래스가 생성되었는지 확인하십시오.

3단계: 문서 분류

다음 방법 중 하나를 사용하여 문서를 분류합니다:
  • 목록에서 동일한 클래스에 속하는 모든 문서를 선택한 후 Assign class 창에서 해당 클래스 이름을 클릭합니다.
  • 아직 적절한 클래스가 생성되지 않은 경우, 목록에서 해당 문서를 모두 선택한 후 도구 모음의 Create Class 또는 Assign class 창의 Create를 클릭하여 클래스를 생성합니다.
  • 동일한 클래스에 속하는 모든 문서를 선택한 후 해당 클래스에 해당하는 목록으로 끌어다 놓습니다.

추가 옵션

필요한 경우 도구 모음의 Rotate 드롭다운 메뉴를 사용하여 문서 페이지의 방향을 변경할 수 있습니다. 다음 옵션 중 하나를 선택할 수 있습니다: Rotate All Pages Left, Rotate All Pages Right, 또는 Rotate All Pages 180º. 보기 모드를 전환하려면 도구 모음의 다음 버튼을 사용합니다.
  • 목록 보기: 문서를 목록으로 표시합니다.
  • 썸네일 보기: 문서를 썸네일로 표시합니다.
썸네일 보기로 표시된 문서의 전체 이미지를 보려면 미리 보기 버튼을 사용합니다.

분류기 학습 및 분류 결과 보기

문서가 분류된 후 Train Activity 버튼을 사용하여 액티비티를 학습합니다. 학습이 완료되면 Results 탭에 분류 결과에 대한 통계가 표시됩니다. 이러한 통계를 분석하면 문제가 있는 클래스를 식별하고 분류기의 전반적인 품질을 평가하는 데 도움이 됩니다.

일반 통계

상단 패널에는 이 액티비티의 모든 문서와 클래스에 대한 일반 통계가 표시됩니다. 이 통계는 분류기의 전반적인 품질을 평가하는 데 도움이 됩니다:
  • accuracy. 예상된 클래스와 프로그램이 할당한 클래스가 일치한 문서의 비율입니다.
  • F-Measure. 분류의 정밀도와 재현율(완전성)을 평가하는 데 사용합니다.
  • Recall. 특정 클래스로 올바르게 분류된 문서 수를 해당 클래스에 속하는 전체 문서 수로 나눈 비율입니다.
  • Precision. 특정 클래스로 올바르게 분류된 문서 수를 해당 클래스로 분류된 전체 문서 수(올바르게 분류된 경우와 잘못 분류된 경우 모두 포함)로 나눈 비율입니다.

클래스별 통계

Classes 창에서 각 클래스에 대한 통계를 볼 수 있습니다. 각 클래스마다 프로그램이 할당한 클래스가 예상 클래스와 일치하는 문서의 비율뿐 아니라, 클래스가 올바르게/잘못 할당된 문서의 수도 표시됩니다. 클래스가 잘못 할당된 문서를 보려면 Classes 창에서 해당 클래스를 선택하고, 잘못 할당된 문서 목록(빨간색으로 표시됨)을 확장하십시오. 이러한 문서를 분석하면 프로그램이 특정 문서에 예상 클래스와 다른 클래스를 할당한 이유를 파악하는 데 도움이 됩니다. 이는 종종 처음부터 예상 클래스를 잘못 지정한 경우, 예를 들어 서로 다른 클래스의 문서들이 지나치게 유사한 경우에 자주 발생할 수 있습니다.

분류 오류 해결

잘못된 예상 클래스

잘못된 분류의 가능한 원인 중 하나는 잘못 지정된 예상 클래스입니다. 이 유형의 오류를 수정하려면 해당 문서에 올바른 예상 클래스를 다시 지정하면 됩니다. Results 탭에서 문서에 잘못 지정된 클래스를 선택합니다. 잘못된 클래스로 지정된 문서 목록을 확장한 다음, 해당 클래스의 모든 문서를 선택하고 Assign class 창의 목록에서 올바른 예상 클래스를 지정합니다.

서로 다른 클래스에 속한 유사한 문서

분류 오류의 또 다른 가능한 원인은 서로 매우 유사한 문서가 서로 다른 클래스로 나뉘어 있는 경우입니다. 분류기가 두 개의 유사한 문서 변형에 대해 클래스를 혼동한다면, 대부분의 경우 이 변형들은 하나의 추출 Activity를 사용하는 단일 클래스에 속해야 합니다. 이 경우 클래스 수를 다시 검토하여 혼동되는 클래스들을 하나로 통합해야 합니다. 그런 다음 이들 간의 차이는 Extraction Rules Activity에서 규칙으로 정의해야 합니다.

학습 데이터 부족

분류 오류가 발생하는 또 다른 원인은 클래스 집합에 포함된 문서 수가 부족하기 때문일 수 있습니다. 이 경우 집합에 더 많은 문서를 추가하여 분류기의 품질을 향상시킬 수 있습니다. 새 문서를 추가하거나 클래스를 변경한 후에는 분류기를 다시 학습시켜야 합니다.