メインコンテンツへスキップ
この記事で説明するスキーマは、OCR Skill によるドキュメント処理結果を格納する JSON ファイルの構造を定義します。これらのファイルには、画像上で検出されたグラフィック要素、テキスト要素、テーブルおよびリストに関する情報に加えて、推定されたドキュメント構造に関する情報が保存されます。検出されたすべてのテキストは段落に分割され、それぞれに特定の機能が割り当てられます。段落は論理セクションにグループ化されます。 すべてのオブジェクトのプロパティ、そのデータ型、および許可される値は JSON スキーマで定義されています。そのため、JSON ファイルを解析するツールを設定しやすくするために、事前にこのスキーマに目を通しておくことをお勧めします。OCR Skill 用の JSON スキーマは、こちらからダウンロードできます。 ルートオブジェクトは、認識されたドキュメント全体を表します。ドキュメントに関する一般情報は、layout オブジェクトと content オブジェクトに格納されます。layout オブジェクトでは画像パラメーターと検出されたすべてのグラフィック要素およびテキスト要素を、content オブジェクトではドキュメントのデータコンポーネントと、その論理構造内での配置を記述します。 次の表は、ルートオブジェクトのすべてのプロパティを一覧にしたものです。
PropertyData typeDescription
version *stringJSON スキーマドキュメントのバージョン。既定値は「Vantage OCR.Skill JSON output v1.0」です。
producer *stringJSON ファイルの生成元。既定値は「ABBYY Vantage OCR.Skill」です。
languagesstring arrayドキュメント内で検出されたすべての言語の一覧。
layoutobjectドキュメントの物理(レイアウト)構造。
contentobjectドキュメントの内容(論理構造)。
  • は必須プロパティを示します。