메인 콘텐츠로 건너뛰기
레이아웃이 다양한 반구조화 문서에서 field를 감지하고 추출하기 위한 사용자 지정 규칙을 설정합니다 Extraction Rules activity를 사용하면 반구조화 문서에서 field를 감지하기 위한 규칙을 설정하고, 이러한 규칙이 실제 문서에서 어떻게 작동하는지 검증할 수 있습니다. 이는 field의 위치가 문서마다 달라져 데이터 추출이 복잡해지는 경우이면서, 해당 field를 감지하는 데 도움이 되는 추가 정보를 제공할 수 있을 때 주로 사용됩니다. 예를 들어 문서의 다른 객체에 대한 field의 상대적 위치나, 객체에 대한 검색 조건을 지정하는 정규식을 제공할 수 있습니다. 예를 들어, 송장 번호 field가 이미지의 오른쪽에 위치하거나, 또는 “Order number”, “Order #”, 또는 이와 유사한 키워드 바로 아래에 위치할 수 있다고 지정할 수 있습니다. 또한 처리 흐름에 Fast Learning activity를 추가하고 Online Learning을 활성화하여 런타임 문서를 수집한 후, 이를 기반으로 머신 러닝을 통해 나중에 스킬을 자동으로 재구성하도록 할 것을 권장합니다.

사용 사례

다음과 같은 경우 문서 처리 플로우에 Extraction Rules activity를 추가합니다.
  • 문서 세트가 Fast Learning activity로 데이터를 추출할 만큼 충분히 표준화되어 있지 않고, Deep Learning activity를 학습시키기에 충분한 문서도 없지만, 문서의 구조는 잘 알려져 있어 이를 형식화할 수 있는 경우
  • Deep Learning 및 Fast Learning activity의 예측 결과를 문서 field에 전달하기 전에 AI를 보다 세밀하게 제어하고자 하는 경우. 예를 들어, 특정 키워드 근처에 위치한 숫자를 추출하려는 경우, 숫자로 보이지 않는 가설과 해당 키워드 근처에 위치하지 않은 가설을 필터링할 수 있습니다. 일반적으로 규칙 기반 후처리가 필요하다면, 이는 대개 Deep Learning 및 Fast Learning activity의 학습 데이터 세트를 더 확장해야 함을 의미합니다. 머신러닝 기술은 field의 데이터 타입, 일반적인 위치, 주변 환경을 “감지”하고 학습할 수 있기 때문입니다.
  • ABBYY FlexiLayout Studio에서 만든 FlexiLayout 파일을 재사용하려는 경우. 자세한 내용은 Importing FlexiLayouts from ABBYY FlexiLayout Studio를 참조하세요.
  • 문서에 복잡한 구조(예: 다른 테이블 내부에 반복 구조로 존재하는 중첩 테이블)가 포함되어 있고, 이러한 구조를 반정형 문서를 대상으로 하는 다른 activity들로는 추출할 수 없는 경우

작동 방식

Extraction Rules 활동은 일련의 문서 집합을 형식화하여 설명한 것으로, 데이터 캡처 작업자가 사용자 지정 규칙을 사용해 문서에서 data field를 찾아 해당 field에서 정보를 추출할 수 있게 해 줍니다. 다시 말해, Extraction Rules 활동을 사용하면 문서 이미지에 대한 field 검색 알고리즘을 지정할 수 있습니다. field의 위치는 다른 객체를 기준으로 상대적으로 지정할 수도 있고, 절대 좌표를 사용해 지정할 수도 있습니다. 문서 이미지상의 다양한 객체는 search element를 사용해 탐지합니다. 이미지에서 탐지해야 하는 각 객체마다, 해당 객체의 필요 유형(예: 텍스트, 이미지, 바코드), 특성, 그리고 예상 검색 영역을 완전히 설명하는 대응 element를 만들어야 합니다. 이러한 element들은 Search Elements 트리를 구성하며, 이는 element들이 서로를 기준으로 검색되는 (임의의 중첩 수준을 가질 수 있는) 논리적으로 연결된 구조입니다. 트리 내 element의 순서는 활동이 이들을 검색하는 순서와 직접적으로 대응하며, 즉 설명을 이미지와 매칭할 때 활동은 element를 위에서 아래 순서로 검색합니다. element를 그룹화하면 검색을 최적화하고, 서로 독립적인 하위 계층 구조를 만들 수 있습니다. 데이터를 field로 추출하려면 해당 field를 search element에 매핑해야 합니다. element가 이미지에서 발견되면, 그 영역이 매핑된 field의 영역이 됩니다. 자세한 내용은 Extraction Rules 활동 설정하기를 참조하십시오.

여러 Extraction Rules 활동 결합하기

여러 Extraction Rules 활동을 포함하는 워크플로 항목을 만들 수 있습니다. 문서에 적용할 활동은 특정 field 값에 따라 선택됩니다. 이 field에는 분류 결과나 문서 유형을 구분하는 데 도움이 되는 기타 데이터가 포함될 수 있습니다. 지정된 값은 해당 활동을 선택하기 위한 조건으로 사용됩니다. 자세한 내용은 단일 활동 내에서 여러 Extraction Rules 사용을 참조하십시오.