메인 콘텐츠로 건너뛰기
이 문서에서 설명하는 스키마는 OCR 스킬의 문서 처리 결과가 포함된 JSON 파일의 구조를 정의합니다. 이러한 파일에는 이미지에서 감지된 그래픽 요소, 텍스트 요소, 표, 목록에 대한 정보와 더불어, 추정된 문서 구조에 대한 정보가 저장됩니다. 감지된 모든 텍스트는 단락으로 분할되며, 각 단락에는 특정 역할이 할당됩니다. 단락들은 논리 섹션으로 그룹화됩니다. 모든 객체 속성과 해당 데이터 유형, 허용되는 값들은 JSON 스키마에 나열되어 있으므로, JSON 파일 분석 도구를 보다 쉽게 설정할 수 있도록 먼저 이 스키마를 숙지할 것을 권장합니다. OCR 스킬용 JSON 스키마는 여기에서 다운로드할 수 있습니다. 루트 객체는 인식된 전체 문서를 설명합니다. 문서에 대한 일반 정보는 layout 객체와 content 객체에 저장됩니다. layout 객체는 이미지 매개변수와 감지된 모든 그래픽 및 텍스트 요소를 설명하며, content 객체는 문서의 데이터 구성 요소와 그것이 논리 구조에서 차지하는 위치를 설명합니다. 아래 표는 모든 루트 객체 속성을 나열합니다:
PropertyData typeDescription
version *stringJSON 스키마 문서의 버전입니다. 기본값은 다음과 같습니다: Vantage OCR.Skill JSON output v1.0
producer *stringJSON 파일의 소스입니다. 기본값은 다음과 같습니다: ABBYY Vantage OCR.Skill
languagesstring array문서에서 감지된 모든 언어의 목록입니다.
layoutobject문서의 물리적(레이아웃) 구조입니다.
contentobject문서의 콘텐츠(논리 구조)입니다.
  • 필수 속성을 나타냅니다.