メインコンテンツへスキップ
本記事で説明するスキーマは、OCR Skill のドキュメント処理結果を含む JSON ファイルの構造を定義します。これらのファイルには、画像上で検出されたグラフィック要素、テキスト要素、表、リストに関する情報に加え、推定されたドキュメント構造に関する情報が保存されます。検出されたすべてのテキストは段落に分割され、それぞれに特定の機能が割り当てられます。段落は論理セクションにグループ化されます。 すべてのオブジェクトのプロパティ、そのデータ型、および許可される値は JSON スキーマに一覧化されています。したがって、JSON ファイルを分析するツールの設定を容易にするため、事前に内容をご確認いただくことを推奨します。OCR Skill 用の JSON スキーマはここからダウンロードできます。 ルートオブジェクトは、認識されたドキュメント全体を表します。ドキュメントに関する一般情報は、layout オブジェクトと content オブジェクトに格納されます。layout オブジェクトは画像のパラメーターおよび検出されたすべてのグラフィック要素とテキスト要素を記述し、content オブジェクトはドキュメントのデータ要素とその論理構造内での位置を記述します。 以下の表は、ルートオブジェクトのすべてのプロパティを一覧化したものです。
PropertyData typeDescription
version *stringJSON スキーマドキュメントのバージョン。既定値: Vantage OCR.Skill JSON output v1.0
producer *stringJSON ファイルのソース。既定値: ABBYY Vantage OCR.Skill
languagesstring arrayドキュメント内で検出されたすべての言語の一覧。
layoutobjectドキュメントの物理(レイアウト)構造。
contentobjectドキュメントの内容(論理構造)。
  • は必須プロパティを示します。