OCR Skill JSON スキーマ - ABBYY Documentation

この記事で説明するスキーマは、OCR Skill によるドキュメント処理結果を格納する JSON ファイルの構造を定義します。これらのファイルには、画像上で検出されたグラフィック要素、テキスト要素、テーブルおよびリストに関する情報に加えて、推定されたドキュメント構造に関する情報が保存されます。検出されたすべてのテキストは段落に分割され、それぞれに特定の機能が割り当てられます。段落は論理セクションにグループ化されます。すべてのオブジェクトのプロパティ、そのデータ型、および許可される値は JSON スキーマで定義されています。そのため、JSON ファイルを解析するツールを設定しやすくするために、事前にこのスキーマに目を通しておくことをお勧めします。OCR Skill 用の JSON スキーマは、こちらからダウンロードできます。ルートオブジェクトは、認識されたドキュメント全体を表します。ドキュメントに関する一般情報は、layout オブジェクトと content オブジェクトに格納されます。layout オブジェクトでは画像パラメーターと検出されたすべてのグラフィック要素およびテキスト要素を、content オブジェクトではドキュメントのデータコンポーネントと、その論理構造内での配置を記述します。次の表は、ルートオブジェクトのすべてのプロパティを一覧にしたものです。

Property	Data type	Description
`version` *	`string`	JSON スキーマドキュメントのバージョン。既定値は「Vantage OCR.Skill JSON output v1.0」です。
`producer` *	`string`	JSON ファイルの生成元。既定値は「ABBYY Vantage OCR.Skill」です。
`languages`	`string array`	ドキュメント内で検出されたすべての言語の一覧。
layout	`object`	ドキュメントの物理 (レイアウト) 構造。
content	`object`	ドキュメントの内容 (論理構造)。

は必須プロパティを示します。