Vantage では、ドキュメントのfields、Text、画像に対して次のエクスポートオプションを提供します。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
field値のエクスポート (Fields タブ)
| Format | エクスポートオプション | 説明 | ファイル名 |
|---|---|---|---|
| JSON | 各文書の値、メタデータ、および field 構造 | 完全なデータ抽出結果です。出力構造については、JSON Schema を参照してください。 | <Applied_skill_name>.json |
| JSON | 値のみ | field 値とルールエラーです。出力構造については、JSON Schema を参照してください。 | <Applied_skill_name>_fields.json |
| CSV | 値のみ | field 値です。 | <Applied_skill_name>.csv* |
画像 field を CSV にエクスポートする場合、CSV ファイル内の値は空になります。繰り返し構造がグループ内にネストされている場合、その名前は
New Group/New Table のように表示されますが、子ファイル名ではスラッシュはアンダースコアに置き換えられます (例: New Group_New Table_055fe8c.csv) 。- 文書に繰り返しオブジェクト (繰り返し field、field の繰り返しグループ、テーブル) が含まれている場合、それらは個別のファイルとしてエクスポートされます。次の命名規則が使用されます。
-
親 CSV ファイル:
<Applied_skill_name>.csv -
繰り返しオブジェクト用の子 CSV ファイル:
<Field_path>_<random 7-character identifier>.csv -
子 CSV ファイル名が 250 文字を超える場合は、代替の命名規則が使用されます:
<Field_ID>_<random 7-character identifier>.csv
- CSV ファイル名に、2 から始まる数値の接尾辞が追加されます。
- 子 CSV ファイル用のサブフォルダーがトランザクションフォルダー内に作成され、
<Applied_skill_name>_<N>または<Applied_skill_name>_fields_<N>(JSON エクスポート — 値のみ が有効な場合) という名前になります。ここで N は、トランザクション内の文書の連番です (文書が複数ある場合は 2 から始まります) 。 - 繰り返しオブジェクトについては、子 CSV ファイルの名前が親 CSV ファイルの field 値に指定されます。
- field 名は 1 行目に書き込まれます。
- 列はカンマ区切りです。
- エンコードは BOM 付き UTF-8 です。
- 繰り返し field またはグループの空のインスタンス、および空のテーブル行はエクスポートされません。結果の CSV には空行は含まれません。
Document テキストのエクスポート (Text タブ)
| Format | Export Option | Description | File Name |
|---|---|---|---|
| JSON | テキストのみ | 認識されたテキストのみを含む JSON ファイル。ドキュメントのレイアウトは保持されません。 | <Applied_skill_name>_text.json |
| JSON | ドキュメント構造を保持 | 認識されたテキストを含み、ドキュメントのレイアウトが保持される JSON ファイル。 | <Applied_skill_name>_text.json |
| XML | テキストのみ | 認識されたテキストのみを含む XML ファイル。ドキュメントのレイアウトは保持されません。 | <Applied_skill_name>.xml |
| XML | ドキュメント構造を保持 | 認識されたテキストを含み、ドキュメントのレイアウトが保持される XML ファイル。 | <Applied_skill_name>.xml |
| ALTOXML | テキストのみ | 認識されたテキストのみを含む ALTO XML ファイル (スキーマ 4.2) 。ドキュメントのレイアウトは保持されません。 | <Applied_skill_name>.xml |
| ALTOXML | ドキュメント構造を保持 | 認識されたテキストを含み、ドキュメントのレイアウトが保持される ALTO XML ファイル (スキーマ 4.2) 。 | <Applied_skill_name>.xml |
| TXT | プレーンテキスト ドキュメント。元のドキュメント構造は空白文字で保持されます。 | <Applied_skill_name>.txt | |
| DOCX | 編集可能 | 編集可能な Word ドキュメント。元の見た目と完全に同一ではない場合があります。 | <Applied_skill_name>.docx |
| DOCX | レイアウト再現 | 編集不可の Word ドキュメント。元のドキュメント構造が完全に保持されます。 | <Applied_skill_name>.docx |
| XLSX | 編集可能な Excel ドキュメント。元のドキュメント構造が保持されます。 | <Applied_skill_name>.xlsx | |
| PPTX | 編集可能な PowerPoint ドキュメント。元のドキュメント構造が保持されます。 | <Applied_skill_name>.pptx | |
| HTML | 元のドキュメント構造を保持する HTML ドキュメント。 | <Applied_skill_name>.html |
JSON、XML、または ALTOXML で テキストのみ を選択すると、DOCX、XLSX、PPTX へのエクスポートは利用できなくなります。
JSON、XML、ALTOXML のエクスポートオプション (テキストのみ および ドキュメント構造を保持) は同一である必要があります。これらの形式のいずれかに設定すると、同じオプションが他の形式にも適用されます。
エクスポートされたテキストには、手動確認で 手動確認 operator によって行われた field 値の変更が反映されます。
文書画像のエクスポート (Image タブ)
| Format | Export Option | Description | File Name |
|---|---|---|---|
| PDF/A-3a | 文書画像にテキストレイヤーを重ねた PDF ファイルです。手動確認での変更が反映されます。 | <Applied_skill_name>.pdf | |
| PDF/A-3b | 文書画像にテキストレイヤーを重ねた PDF ファイルです。手動確認での変更が反映されます。 | <Applied_skill_name>.pdf | |
| 画像のみ | テキストレイヤーのない、PDF/A-3b 準拠の編集不可の PDF です。 | <Applied_skill_name>.pdf | |
| TIFF | TIFF 形式の補正済み画像です。 | <Applied_skill_name>.tiff | |
| JPEG | 最大品質 | 品質 95% の補正済み JPEG 画像です。 | pages/page_<N>.jpg |
| JPEG | ファイルサイズを小さく | 品質 75% の補正済み JPEG 画像です。ファイルサイズを抑えながら、判読可能な品質を維持します。 | pages/page_<N>.jpg |
- サブフォルダー名は
<Applied_skill_name>_<N>、または JSON エクスポートで 値のみ が有効な場合は<Applied_skill_name>_fields_<N>です。N はトランザクション内の文書の連番です (文書が複数ある場合は 2 から始まります) 。 - サブフォルダー内の
Pagesサブフォルダーに JPG ファイルが保存され、ファイル名はpage_<N>.jpgになります。N はページ番号です。 - PDF ファイルと TIFF ファイルはトランザクションフォルダーに保存されます。
- 同じ種類の文書が複数ある場合は、ファイル名に 2 から始まる数値の接尾辞が追加されます。
一般的な命名規則
<Applied_skill_name> を含みます。これは次のいずれかを表します。
- ドキュメントに最後に適用された Document skill の名前
- いずれの Document skill も適用されていない場合は、最後に適用された 分類スキル の名前
- Process skill のフロー内に少なくとも 1 つ存在していても、Document skill または Classification skill が何も適用されなかった場合は
Unknown
エラー出力
Error.json ファイルを生成します。
- トランザクション ID
- トランザクションのステータス (
Failed) - エラーメッセージ
- トランザクションに含まれるすべてのソース ファイルの識別子と名前の配列
エクスポートされたデータは、保持ポリシーに従って、既定では 2 週間保存されます。
Output アクティビティ
Output アクティビティの概要と、対応する出力先について説明します。
共有フォルダーにエクスポート
SFTP 経由でアクセス可能な共有フォルダーに処理結果を送信します。
外部システムにエクスポート
カスタム スクリプトを使用して、結果をサードパーティ システムにエクスポートします。
JSON Schema
トランザクションごとに生成される JSON 出力の構造。
XML Schema
トランザクションごとに生成される XML 出力の構造。
