메인 콘텐츠로 건너뛰기
문서에서 데이터를 추출하려면 Document skill을 생성해야 합니다. 시나리오와 관련 기술(활동으로 제공됨)은 주로 처리하려는 문서의 구조에 따라 달라집니다. 일반적으로 문서는 다음과 같은 유형으로 분류할 수 있습니다:

문서 유형

정형 문서

정형 문서(고정 양식이라고도 함)는 항상 동일한 정보를 포함하며, 레이아웃이 동일하거나 레이아웃 종류가 매우 제한적입니다. 정형 문서의 예로는 양식, 설문지, 설문조사 등이 있습니다. Sample Structured Document

반구조화 문서

반구조화 문서는 일반적으로 동일한 정보를 담고 있지만, 문서마다 field의 위치, 크기, 개수가 달라질 수 있어 데이터 추출이 더 어렵습니다. Vantage는 필요한 데이터를 찾고 추출하기 위해, 특정 요소와 field 사이에 존재하는 공간적 및 논리적 관계를 활용합니다. 반구조화 문서의 예로는 송장, 지급 지시서, 선하증권 등이 있습니다. 반구조화 문서 예시 문서 세트가 구조화 또는 반구조화 문서로 구성되어 있다면, 구조화 문서 처리반구조화 문서 처리 섹션의 시나리오를 참고하십시오.

비정형 문서

비정형 문서는 추출해야 할 데이터가 포함된 자유 형식의 텍스트로, 문단과 문장 단위로 구성됩니다. 일부 비정형 문서에서는 하나의 field가 다음 페이지로 이어질 수 있습니다. 비정형 문서의 예로는 계약서, 이메일, 연구 논문 등이 있습니다. Sample Unstructured Document 문서 세트가 비정형 문서로 구성되어 있다면, 비정형 문서 처리 섹션에 소개된 시나리오를 참조하세요.

혼합 문서 세트

문서 세트에 반정형 문서와 비정형 문서가 모두 포함되어 있거나, 단일 문서 안에 반정형 및 비정형 콘텐츠(예: 일반 텍스트 단락과 표가 번갈아 나타나는 경우)가 모두 포함될 수 있다면, 혼합 문서 세트 및 혼합 구조 문서 처리 섹션의 시나리오를 참고하세요.