Vantage는 문서 field, 텍스트 및 이미지에 대해 다음 내보내기 옵션을 제공합니다.
| Format | Export Option | Description | File Name |
|---|
| JSON | 각 문서에 대한 값, 메타데이터 및 field 구조 | 전체 데이터 추출 결과입니다. 출력 파일의 구조는 Developer’s Guide에 설명되어 있습니다. | <Applied_skill_name>.json |
| JSON | 값만 | field 값과 규칙 오류입니다. 출력 파일의 구조는 Developer’s Guide에 설명되어 있습니다. | <Applied_skill_name>_fields.json |
| CSV | 값만 | field 값입니다. 주의: 이미지 field를 내보낼 때, CSV 파일에서 해당 값은 비어 있게 됩니다. 그룹 안에 반복 구조가 중첩되어 있는 경우 이름이 “New Group/New Table”로 표시되지만, 하위 파일 이름에서는 슬래시가 밑줄로 대체됩니다(예: New Group_New Table_055fe8c.csv). | <Applied_skill_name>.csv* |
*문서에 반복 객체(반복 field, 반복 field 그룹, 테이블)가 포함되어 있는 경우, 이들은 별도의 파일로 내보내집니다. 다음과 같은 이름 지정 규칙이 사용됩니다.
- 상위 CSV 파일 이름:
<Applied_skill_name>.csv
- 반복 객체에 대한 하위 CSV 파일 이름:
<Field_path>_<random 7-character identifier>.csv
- 하위 CSV 파일 이름의 길이가 250자를 초과하는 경우, 다음과 같은 대체 이름 지정 규칙이 사용됩니다:
<Field_ID>_<random 7-character identifier>.csv
공유 폴더로 내보낼 때 상위 CSV 파일은 트랜잭션 폴더에 저장됩니다. 트랜잭션에 동일한 유형의 문서가 여러 개 있고 각 문서마다 별도의 CSV 파일이 생성되는 경우, 다음 규칙 및 이름 지정 방식이 사용됩니다.
- CSV 파일 이름에 2부터 시작하는 숫자 접미사가 추가됩니다.
- 하위 CSV 파일에 대해 트랜잭션 폴더 내에 하위 폴더가 생성됩니다.
- 하위 폴더 이름은 다음과 같습니다:
<Applied_skill_name>_<N> 또는 <Applied_skill_name>_fields_<N>(JSON 내보내기 - 값만 이 활성화된 경우). 여기서 N은 트랜잭션 내 문서의 순차 번호이며, 트랜잭션 내 문서가 둘 이상인 경우 2부터 시작합니다.
- 반복 객체의 경우 하위 CSV 파일 이름은 상위 CSV 파일의 field 값에 기록됩니다.
CSV 파일은 다음과 같이 포맷됩니다.
- 첫 번째 행에는 field 이름이 기록됩니다.
- 열 구분 기호로 쉼표가 사용됩니다.
- UTF-8 with BOM 인코딩이 사용됩니다.
- 비어 있는 반복 field 또는 그룹 인스턴스, 비어 있는 테이블 행은 내보내지 않으므로 결과 CSV 파일에는 빈 행이 없습니다.
| Format | Export Option | Description | File Name |
|---|
| JSON | Text only | 인식된 텍스트만 포함하고 문서 레이아웃은 보존되지 않는 JSON 파일입니다. 참고: 이 옵션을 선택하면 DOCX, XLSX 및 PPTX로의 내보내기가 불가능합니다. | <Applied_skill_name>_text.json |
| JSON | Preserve document structure | 인식된 텍스트를 문서 레이아웃과 함께 보존하는 JSON 파일입니다. | <Applied_skill_name>_text.json |
| XML | Text only | 인식된 텍스트만 포함하고 문서 레이아웃은 보존되지 않는 XML 파일입니다. 참고: 이 옵션을 선택하면 DOCX, XLSX 및 PPTX로의 내보내기가 불가능합니다. | <Applied_skill_name>.xml |
| XML | Preserve document structure | 인식된 텍스트를 문서 레이아웃과 함께 보존하는 XML 파일입니다. | <Applied_skill_name>.xml |
| ALTOXML | Text only | 인식된 텍스트만 포함하고 문서 레이아웃은 보존되지 않는 ALTO XML 파일입니다. 이 파일은 ALTO 표준 스키마 버전 4.2를 따릅니다. 참고: 이 옵션을 선택하면 DOCX, XLSX 및 PPTX로의 내보내기가 불가능합니다. | <Applied_skill_name>.xml |
| ALTOXML | Preserve document structure | 인식된 텍스트를 문서 레이아웃과 함께 보존하는 ALTO XML 파일입니다. 이 파일은 ALTO 표준 스키마 버전 4.2를 따릅니다. | <Applied_skill_name>.xml |
| TXT | | 일반 텍스트 문서입니다. 원본 문서 구조는 공백 문자를 사용하여 보존됩니다. | <Applied_skill_name>.txt |
| DOCX | Editable | 원본과 정확히 같지는 않을 수 있는 편집 가능한 Word 문서입니다. | <Applied_skill_name>.docx |
| DOCX | Exact | 편집할 수 없는 Word 문서입니다. 원본 문서 구조가 완전히 보존됩니다. | <Applied_skill_name>.docx |
| XLSX | | 편집 가능한 Excel 문서입니다. 원본 문서 구조가 보존됩니다. | <Applied_skill_name>.xlsx |
| PPTX | | 편집 가능한 PowerPoint 문서입니다. 원본 문서 구조가 보존됩니다. | <Applied_skill_name>.pptx |
| HTML | | 원본 문서 구조를 보존하는 HTML 문서입니다. | <Applied_skill_name>.html |
공유 폴더로 내보낼 때는 모든 파일이 트랜잭션 폴더에 저장됩니다. 트랜잭션 내에 동일한 형식의 문서가 두 개 이상 있는 경우, 파일 이름에는 2부터 시작하는 숫자 접미사가 추가됩니다.
내보낸 텍스트에는 수동 검토 중 Manual Review Operator가 수행한 field 값 변경 사항이 반영됩니다.
JSON, XML 및 ALTOXML에 대한 내보내기 옵션(Text only 및 Preserve document structure)은 서로 다를 수 없습니다. 이 형식 중 하나에 대해 다른 내보내기 옵션을 지정하면, 해당 옵션이 나머지 형식에도 동일하게 적용됩니다.
| Format | Export Option | Description | File Name |
|---|
| PDF | PDF/A-3a | 문서 이미지 위에 텍스트 레이어가 있는 PDF 파일입니다. 이 텍스트 레이어에는 수동 검토 동안 Manual Review Operator(수동 검토 담당자)가 수행한 field 값 변경 사항이 반영됩니다. | <Applied_skill_name>.pdf |
| PDF | PDF/A-3b | 문서 이미지 위에 텍스트 레이어가 있는 PDF 파일입니다. 이 텍스트 레이어에는 수동 검토 동안 Manual Review Operator(수동 검토 담당자)가 수행한 field 값 변경 사항이 반영됩니다. | <Applied_skill_name>.pdf |
| PDF | Image-only | 텍스트 레이어가 없는 PDF/A-3b 표준의 편집할 수 없는 PDF입니다. | <Applied_skill_name>.pdf |
| TIFF | | TIFF 형식의 향상된 이미지를 포함하는 파일입니다. | <Applied_skill_name>.tiff |
| JPEG | Maximum quality | JPEG 형식의 향상된 이미지를 포함하는 파일입니다. 이 압축 옵션을 선택하면 이미지 품질 수준이 95%로 설정됩니다. | pages/page_<N>.jpg |
| JPEG | Smaller file size | JPEG 형식의 향상된 이미지를 포함하는 파일입니다. 이 압축 옵션을 선택하면 이미지 품질 수준이 75%로 설정됩니다. 이렇게 하면 크기를 줄이면서도 이미지를 읽을 수 있는 형태로 저장할 수 있습니다. | pages/page_<N>.jpg |
각 PDF 내보내기 옵션마다 “smaller file size”(기본 옵션)와 “maximum quality” 중에서 선택할 수 있습니다. Smaller file size는 Mixed Raster Content(MRC) 압축을 사용하여 구현되며, 텍스트, 그림 및 배경 각각에 대해 최적의 압축률을 별도로 결정합니다.
공유 폴더로 내보낼 때는 트랜잭션 내 각 문서마다 하위 폴더가 생성됩니다. 다음 규칙과 명명 체계가 사용됩니다.
- 하위 폴더 이름은
<Applied_skill_name>_<N> 또는 <Applied_skill_name>_fields_<N>(JSON export - Values only가 활성화된 경우) 형식입니다. 여기서 N은 트랜잭션 내 문서의 순차 번호이며, 트랜잭션에 문서가 둘 이상 있는 경우 2부터 시작합니다.
- 이 하위 폴더 내에 JPG 파일을 저장하기 위한 Pages 하위 폴더가 생성됩니다. 파일 이름은
formatted as page_<N>.jpg 형식이며, 여기서 N은 페이지의 순차 번호입니다.
- PDF 및 TIFF 파일은 트랜잭션 폴더에 저장됩니다.
- 트랜잭션에 동일한 유형의 문서가 둘 이상 있는 경우, 파일 이름에 2부터 시작하는 숫자 접미사가 추가됩니다.
내보내지는 대부분의 파일 이름에는 <Applied_skill_name> 이(가) 포함되며, 이는 다음 중 하나를 의미합니다.
- 문서에 마지막으로 적용된 Document skill의 이름
- 어떤 Document skill도 적용되지 않은 경우, 문서에 마지막으로 적용된 분류 스킬의 이름
- 프로세스 스킬 플로우에 문서 또는 분류 스킬이 하나 이상 존재하지만 아무것도 적용되지 않은 경우에는 “Unknown”
출력 파일이 여러 개이고 공유 폴더로 내보내도록 구성되어 있는 경우, 각 파일 이름이 고유해지도록 파일 이름 끝에 증가하는 번호가 붙습니다.
트랜잭션이 성공적으로 완료되지 않으면 Vantage는 Error.json 파일을 생성하며, 이 파일에는 트랜잭션에 대한 다음 정보를 포함하는 JSON string이 들어 있습니다.
- 트랜잭션 식별자
- 트랜잭션 상태(Failed)
- 오류 메시지
- 트랜잭션의 모든 소스 파일 식별자와 이름을 포함하는 배열
기본적으로 내보낸 데이터는 보존 정책에 따라 2주 동안 저장됩니다.