메인 콘텐츠로 건너뛰기
Vantage는 문서 field, 텍스트 및 이미지에 대해 다음 내보내기 옵션을 제공합니다.

추출된 field 값 내보내기 옵션 (Fields 탭)

FormatExport OptionDescriptionFile Name
JSON각 문서에 대한 값, 메타데이터 및 field 구조전체 데이터 추출 결과입니다. 출력 파일의 구조는 Developer’s Guide에 설명되어 있습니다.<Applied_skill_name>.json
JSON값만field 값과 규칙 오류입니다. 출력 파일의 구조는 Developer’s Guide에 설명되어 있습니다.<Applied_skill_name>_fields.json
CSV값만field 값입니다. 주의: 이미지 field를 내보낼 때, CSV 파일에서 해당 값은 비어 있게 됩니다. 그룹 안에 반복 구조가 중첩되어 있는 경우 이름이 “New Group/New Table”로 표시되지만, 하위 파일 이름에서는 슬래시가 밑줄로 대체됩니다(예: New Group_New Table_055fe8c.csv).<Applied_skill_name>.csv*
*문서에 반복 객체(반복 field, 반복 field 그룹, 테이블)가 포함되어 있는 경우, 이들은 별도의 파일로 내보내집니다. 다음과 같은 이름 지정 규칙이 사용됩니다.
  • 상위 CSV 파일 이름: <Applied_skill_name>.csv
  • 반복 객체에 대한 하위 CSV 파일 이름: <Field_path>_<random 7-character identifier>.csv
  • 하위 CSV 파일 이름의 길이가 250자를 초과하는 경우, 다음과 같은 대체 이름 지정 규칙이 사용됩니다: <Field_ID>_<random 7-character identifier>.csv
공유 폴더로 내보낼 때 상위 CSV 파일은 트랜잭션 폴더에 저장됩니다. 트랜잭션에 동일한 유형의 문서가 여러 개 있고 각 문서마다 별도의 CSV 파일이 생성되는 경우, 다음 규칙 및 이름 지정 방식이 사용됩니다.
  • CSV 파일 이름에 2부터 시작하는 숫자 접미사가 추가됩니다.
  • 하위 CSV 파일에 대해 트랜잭션 폴더 내에 하위 폴더가 생성됩니다.
  • 하위 폴더 이름은 다음과 같습니다: <Applied_skill_name>_<N> 또는 <Applied_skill_name>_fields_<N>(JSON 내보내기 - 값만 이 활성화된 경우). 여기서 N은 트랜잭션 내 문서의 순차 번호이며, 트랜잭션 내 문서가 둘 이상인 경우 2부터 시작합니다.
  • 반복 객체의 경우 하위 CSV 파일 이름은 상위 CSV 파일의 field 값에 기록됩니다.
CSV 파일은 다음과 같이 포맷됩니다.
  • 첫 번째 행에는 field 이름이 기록됩니다.
  • 열 구분 기호로 쉼표가 사용됩니다.
  • UTF-8 with BOM 인코딩이 사용됩니다.
  • 비어 있는 반복 field 또는 그룹 인스턴스, 비어 있는 테이블 행은 내보내지 않으므로 결과 CSV 파일에는 빈 행이 없습니다.

문서 텍스트 내보내기 옵션 (Text 탭)

FormatExport OptionDescriptionFile Name
JSONText only인식된 텍스트만 포함하고 문서 레이아웃은 보존되지 않는 JSON 파일입니다. 참고: 이 옵션을 선택하면 DOCX, XLSX 및 PPTX로의 내보내기가 불가능합니다.<Applied_skill_name>_text.json
JSONPreserve document structure인식된 텍스트를 문서 레이아웃과 함께 보존하는 JSON 파일입니다.<Applied_skill_name>_text.json
XMLText only인식된 텍스트만 포함하고 문서 레이아웃은 보존되지 않는 XML 파일입니다. 참고: 이 옵션을 선택하면 DOCX, XLSX 및 PPTX로의 내보내기가 불가능합니다.<Applied_skill_name>.xml
XMLPreserve document structure인식된 텍스트를 문서 레이아웃과 함께 보존하는 XML 파일입니다.<Applied_skill_name>.xml
ALTOXMLText only인식된 텍스트만 포함하고 문서 레이아웃은 보존되지 않는 ALTO XML 파일입니다. 이 파일은 ALTO 표준 스키마 버전 4.2를 따릅니다. 참고: 이 옵션을 선택하면 DOCX, XLSX 및 PPTX로의 내보내기가 불가능합니다.<Applied_skill_name>.xml
ALTOXMLPreserve document structure인식된 텍스트를 문서 레이아웃과 함께 보존하는 ALTO XML 파일입니다. 이 파일은 ALTO 표준 스키마 버전 4.2를 따릅니다.<Applied_skill_name>.xml
TXT일반 텍스트 문서입니다. 원본 문서 구조는 공백 문자를 사용하여 보존됩니다.<Applied_skill_name>.txt
DOCXEditable원본과 정확히 같지는 않을 수 있는 편집 가능한 Word 문서입니다.<Applied_skill_name>.docx
DOCXExact편집할 수 없는 Word 문서입니다. 원본 문서 구조가 완전히 보존됩니다.<Applied_skill_name>.docx
XLSX편집 가능한 Excel 문서입니다. 원본 문서 구조가 보존됩니다.<Applied_skill_name>.xlsx
PPTX편집 가능한 PowerPoint 문서입니다. 원본 문서 구조가 보존됩니다.<Applied_skill_name>.pptx
HTML원본 문서 구조를 보존하는 HTML 문서입니다.<Applied_skill_name>.html
공유 폴더로 내보낼 때는 모든 파일이 트랜잭션 폴더에 저장됩니다. 트랜잭션 내에 동일한 형식의 문서가 두 개 이상 있는 경우, 파일 이름에는 2부터 시작하는 숫자 접미사가 추가됩니다. 내보낸 텍스트에는 수동 검토 중 Manual Review Operator가 수행한 field 값 변경 사항이 반영됩니다.
JSON, XML 및 ALTOXML에 대한 내보내기 옵션(Text onlyPreserve document structure)은 서로 다를 수 없습니다. 이 형식 중 하나에 대해 다른 내보내기 옵션을 지정하면, 해당 옵션이 나머지 형식에도 동일하게 적용됩니다.

문서 이미지 내보내기 옵션(이미지 탭)

FormatExport OptionDescriptionFile Name
PDFPDF/A-3a문서 이미지 위에 텍스트 레이어가 있는 PDF 파일입니다. 이 텍스트 레이어에는 수동 검토 동안 Manual Review Operator(수동 검토 담당자)가 수행한 field 값 변경 사항이 반영됩니다.<Applied_skill_name>.pdf
PDFPDF/A-3b문서 이미지 위에 텍스트 레이어가 있는 PDF 파일입니다. 이 텍스트 레이어에는 수동 검토 동안 Manual Review Operator(수동 검토 담당자)가 수행한 field 값 변경 사항이 반영됩니다.<Applied_skill_name>.pdf
PDFImage-only텍스트 레이어가 없는 PDF/A-3b 표준의 편집할 수 없는 PDF입니다.<Applied_skill_name>.pdf
TIFFTIFF 형식의 향상된 이미지를 포함하는 파일입니다.<Applied_skill_name>.tiff
JPEGMaximum qualityJPEG 형식의 향상된 이미지를 포함하는 파일입니다. 이 압축 옵션을 선택하면 이미지 품질 수준이 95%로 설정됩니다.pages/page_<N>.jpg
JPEGSmaller file sizeJPEG 형식의 향상된 이미지를 포함하는 파일입니다. 이 압축 옵션을 선택하면 이미지 품질 수준이 75%로 설정됩니다. 이렇게 하면 크기를 줄이면서도 이미지를 읽을 수 있는 형태로 저장할 수 있습니다.pages/page_<N>.jpg
각 PDF 내보내기 옵션마다 “smaller file size”(기본 옵션)와 “maximum quality” 중에서 선택할 수 있습니다. Smaller file size는 Mixed Raster Content(MRC) 압축을 사용하여 구현되며, 텍스트, 그림 및 배경 각각에 대해 최적의 압축률을 별도로 결정합니다. 공유 폴더로 내보낼 때는 트랜잭션 내 각 문서마다 하위 폴더가 생성됩니다. 다음 규칙과 명명 체계가 사용됩니다.
  • 하위 폴더 이름은 <Applied_skill_name>_<N> 또는 <Applied_skill_name>_fields_<N>(JSON export - Values only가 활성화된 경우) 형식입니다. 여기서 N은 트랜잭션 내 문서의 순차 번호이며, 트랜잭션에 문서가 둘 이상 있는 경우 2부터 시작합니다.
  • 이 하위 폴더 내에 JPG 파일을 저장하기 위한 Pages 하위 폴더가 생성됩니다. 파일 이름은 formatted as page_<N>.jpg 형식이며, 여기서 N은 페이지의 순차 번호입니다.
  • PDF 및 TIFF 파일은 트랜잭션 폴더에 저장됩니다.
  • 트랜잭션에 동일한 유형의 문서가 둘 이상 있는 경우, 파일 이름에 2부터 시작하는 숫자 접미사가 추가됩니다.

일반 명명 방식

내보내지는 대부분의 파일 이름에는 <Applied_skill_name> 이(가) 포함되며, 이는 다음 중 하나를 의미합니다.
  • 문서에 마지막으로 적용된 Document skill의 이름
  • 어떤 Document skill도 적용되지 않은 경우, 문서에 마지막으로 적용된 분류 스킬의 이름
  • 프로세스 스킬 플로우에 문서 또는 분류 스킬이 하나 이상 존재하지만 아무것도 적용되지 않은 경우에는 “Unknown”
출력 파일이 여러 개이고 공유 폴더로 내보내도록 구성되어 있는 경우, 각 파일 이름이 고유해지도록 파일 이름 끝에 증가하는 번호가 붙습니다.

오류가 발생한 트랜잭션

트랜잭션이 성공적으로 완료되지 않으면 Vantage는 Error.json 파일을 생성하며, 이 파일에는 트랜잭션에 대한 다음 정보를 포함하는 JSON string이 들어 있습니다.
  • 트랜잭션 식별자
  • 트랜잭션 상태(Failed)
  • 오류 메시지
  • 트랜잭션의 모든 소스 파일 식별자와 이름을 포함하는 배열
기본적으로 내보낸 데이터는 보존 정책에 따라 2주 동안 저장됩니다.