메인 콘텐츠로 건너뛰기
스킬을 학습시키고 테스트하려면 일정 개수의 문서에 라벨을 지정해야 합니다. 이를 위해 문서에서 field 값이 포함된 영역을 선택해야 합니다. 영역을 선택하려면 다음 중 하나를 수행합니다:
  • 단어 위에 마우스를 올린 후 클릭합니다. 그러면 영역이 생성되고 해당 단어가 field로 복사됩니다. 이 방법은 한 단어만으로 구성된 field에 라벨을 지정할 때 사용합니다.
  • 여러 단어를 둘러싸도록 사각형을 그립니다. 이 사각형 안의 모든 단어가 field로 복사됩니다. 이 방법은 반구조화된 문서에 라벨을 지정할 때 사용할 것을 권장합니다.
  • 시퀀스의 첫 번째 단어를 클릭한 후 왼쪽 마우스 버튼을 누른 상태에서 시퀀스의 마지막 단어까지 커서를 끌어 영역을 선택합니다. 이 방법은 비구조화 문서에 라벨을 지정할 때 사용할 것을 권장합니다.
아래 가이드라인은 문서 유형에 따라 문서에 라벨을 올바르게 지정할 수 있도록 도와줍니다.

구조화된 문서

구조화된 문서는 항상 동일한 유형의 정보가 동일한 위치에 포함되어 있습니다. 구조화된 문서의 한 예로는 미리 서식이 지정된 양식을 들 수 있습니다. 레이아웃에 변형이 없으므로 학습을 위해서는 몇 개의 샘플 문서만 라벨링하면 됩니다. 구조화된 문서를 라벨링할 때는 아래 지침을 따르십시오.
  • 각 field의 영역을 정확하게 지정해야 하며, field 값만으로는 학습에 충분하지 않습니다.
  • field의 영역을 지정할 때는 값만 클릭하지 말고 전체 플레이스홀더를 영역으로 지정하십시오.
  • field에 값이 없는 경우, 비어 있는 플레이스홀더를 영역으로 지정하십시오.
  • field가 여러 부분으로 구성된 경우, Shift 키를 누른 상태에서 각 부분을 추가하십시오. 모든 부분은 동일한 페이지에 있어야 합니다.
  • 고정 양식에 표가 포함되어 있으면, 비어 있는 행을 포함하여 모든 행을 영역으로 지정하십시오.
  • 일부 라벨링이 이미 완료된 후 field가 추가된 경우, 이 새 field는 학습 세트에 포함된 모든 문서에서 라벨링되어야 합니다. 모든 문서를 검토하여 새 field가 존재하는 모든 문서에서 해당 field를 라벨링하십시오.

반구조화 문서

반구조화 문서는 일반적으로 동일하거나 유사한 유형의 정보를 포함하지만, field의 위치, 크기, 개수는 문서마다 달라질 수 있습니다. 반구조화 문서의 예로는 청구서, 지급 지시서, 송장(invoice) 등이 있습니다. 반구조화 문서에 레이블을 지정할 때는 아래 지침을 따르십시오.
  • 각 field의 영역을 정확히 지정해야 하며, field 값만으로는 학습에 충분하지 않습니다.
  • field의 영역을 지정하려면 해당 값(포함된 단어나 단어들)을 클릭하면 영역이 자동으로 생성됩니다.
  • 값이 없는 field의 경우, 해당 field에 대한 영역을 생성하지 마십시오.
  • 단어의 일부만 영역으로 지정하지 마십시오. 프로그램은 전체 단어에 대해서만 학습할 수 있습니다.
  • field가 여러 부분으로 구성되어 있는 경우, Shift 키를 누른 상태에서 각 부분을 추가하십시오. 모든 부분은 동일한 페이지에 있어야 합니다.
  • 반복 구조가 있는 경우, 먼저 문서를 분석한 다음 표 또는 반복 그룹 중 하나를 만드십시오. 공통 헤더가 있고 값 옆에 키워드가 없는 표가 포함된 문서라면 표를 만드십시오. 데이터 구조가 덜 엄격하고 값 옆에 키워드가 위치한 경우에는 여러 항목 허용 옵션을 사용해 그룹을 만드십시오. 문서마다 데이터가 서로 다른 방식으로 구성되어 있다면, 대부분의 문서에 가장 잘 맞는 옵션을 선택하십시오.
  • 표에 레이블을 지정할 때는 첫 번째 행의 셀을 먼저 지정한 다음 이 행부터 표 계속을 클릭하여 전체 표에 레이블이 올바르게 지정되었는지 확인하십시오. 첫 번째 행의 각 셀을 차례로 클릭하면 해당 열이 자동으로 생성됩니다. 표 전체를 모두 지정할 때까지 계속하십시오.
표가 크고 문서 페이지들의 모양이 서로 비슷하다면, 유사한 페이지를 삭제하고 첫 페이지, 마지막 페이지, 그리고 그 사이의 일부 페이지만에 레이블을 지정해도 됩니다.
  • 개별 field(예: 주소)이든 표 셀(예: “Description”)이든, 다른 field의 영역 내부에서 field를 찾도록 프로그램에 지시하지 마십시오. 큰 텍스트 블록에서 데이터를 추출해야 하는 경우, 여러 액티비티를 순차적으로 사용하십시오. 먼저, 반구조화 문서에서 데이터를 추출하도록 설계된 액티비티를 사용하여 원하는 영역을 찾도록 학습시키십시오. 그다음, 이 영역에서 특정 field를 추출하기 위해 텍스트(NLP) 기반 데이터 추출용 액티비티를 사용하거나 자체 스크립트 규칙을 구현하십시오.
  • 일부 레이블링이 이미 완료된 이후에 field를 추가한 경우, 이 새 field는 학습 세트에 포함된 모든 문서에서 레이블링되어야 합니다. 모든 문서를 검토하여 새 field가 나타나는 모든 문서에서 해당 field에 레이블을 지정하십시오.

비정형 문서

비정형 문서에는 어떠한 방식으로도 구조화되지 않은 정보가 포함되어 있습니다. 비정형 문서의 예로는 계약서, 학술 기사, 이메일 메시지 등이 있습니다. 비정형 문서를 라벨링할 때는 아래 지침을 따르십시오.
  • 학습에는 field 값만으로는 충분하지 않으므로 각 field의 영역을 정확하게 지정해야 합니다.
  • 세그먼트(예: Segmentation 작업에서 학습되는 field)를 라벨링할 때는 영역에 하나 이상의 전체 문단이 포함되어야 합니다. 세그먼트에는 문단의 일부만 포함될 수 없습니다.
  • field의 영역을 지정하려면 해당 field 값(포함된 단어나 여러 단어)을 클릭하면 영역이 자동으로 생성됩니다.
  • field에 값이 없는 경우 해당 field에 대한 영역을 생성하지 마십시오.
  • 단어의 일부만 표시하지 마십시오. 프로그램은 전체 단어를 기반으로만 학습할 수 있습니다.
단어 뒤에 구두점이 오는 경우(예: ”… and Mary Jones,(“Borrower… “))에는 영역에 구두점이 포함되지 않도록 조정하십시오.
  • 때때로 field 영역이 다음 페이지로 넘어갈 수 있습니다(예: 계약서의 조항). 이 경우 첫 페이지에서 field의 일부를 라벨링한 다음, Shift 키를 누른 상태로 다음 페이지에서 계속 라벨링하십시오.
  • 다른 field의 영역 안에 있는 field에 대한 영역을 생성할 때(예: 세그먼트 안의 field를 표시하기 위해)에는 원하는 field를 선택한 후 다른 field 영역 안에서 바로 라벨링을 시작하십시오. 이렇게 해도 기존 영역이 선택되지 않고, 선택한 field에 대한 새 영역이 생성됩니다.