メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Vantage では、ドキュメントのfields、Text、画像に対して次のエクスポートオプションを提供します。

field値のエクスポート (Fields タブ)

Formatエクスポートオプション説明ファイル名
JSON各文書の値、メタデータ、および field 構造完全なデータ抽出結果です。出力構造については、JSON Schema を参照してください。<Applied_skill_name>.json
JSON値のみfield 値とルールエラーです。出力構造については、JSON Schema を参照してください。<Applied_skill_name>_fields.json
CSV値のみfield 値です。<Applied_skill_name>.csv*
画像 field を CSV にエクスポートする場合、CSV ファイル内の値は空になります。繰り返し構造がグループ内にネストされている場合、その名前は New Group/New Table のように表示されますが、子ファイル名ではスラッシュはアンダースコアに置き換えられます (例: New Group_New Table_055fe8c.csv) 。
  • 文書に繰り返しオブジェクト (繰り返し field、field の繰り返しグループ、テーブル) が含まれている場合、それらは個別のファイルとしてエクスポートされます。次の命名規則が使用されます。
  • 親 CSV ファイル: <Applied_skill_name>.csv
  • 繰り返しオブジェクト用の子 CSV ファイル: <Field_path>_<random 7-character identifier>.csv
  • 子 CSV ファイル名が 250 文字を超える場合は、代替の命名規則が使用されます: <Field_ID>_<random 7-character identifier>.csv
共有フォルダーにエクスポートする場合、親 CSV ファイルはトランザクションフォルダーに保存されます。トランザクション内に同じ種類の文書が複数あり、文書ごとに個別の CSV ファイルが生成される場合は、次のようになります。
  • CSV ファイル名に、2 から始まる数値の接尾辞が追加されます。
  • 子 CSV ファイル用のサブフォルダーがトランザクションフォルダー内に作成され、<Applied_skill_name>_<N> または <Applied_skill_name>_fields_<N> (JSON エクスポート — 値のみ が有効な場合) という名前になります。ここで N は、トランザクション内の文書の連番です (文書が複数ある場合は 2 から始まります) 。
  • 繰り返しオブジェクトについては、子 CSV ファイルの名前が親 CSV ファイルの field 値に指定されます。
CSV ファイルの形式は次のとおりです。
  • field 名は 1 行目に書き込まれます。
  • 列はカンマ区切りです。
  • エンコードは BOM 付き UTF-8 です。
  • 繰り返し field またはグループの空のインスタンス、および空のテーブル行はエクスポートされません。結果の CSV には空行は含まれません。

Document テキストのエクスポート (Text タブ)

FormatExport OptionDescriptionFile Name
JSONテキストのみ認識されたテキストのみを含む JSON ファイル。ドキュメントのレイアウトは保持されません。<Applied_skill_name>_text.json
JSONドキュメント構造を保持認識されたテキストを含み、ドキュメントのレイアウトが保持される JSON ファイル。<Applied_skill_name>_text.json
XMLテキストのみ認識されたテキストのみを含む XML ファイル。ドキュメントのレイアウトは保持されません。<Applied_skill_name>.xml
XMLドキュメント構造を保持認識されたテキストを含み、ドキュメントのレイアウトが保持される XML ファイル。<Applied_skill_name>.xml
ALTOXMLテキストのみ認識されたテキストのみを含む ALTO XML ファイル (スキーマ 4.2) 。ドキュメントのレイアウトは保持されません。<Applied_skill_name>.xml
ALTOXMLドキュメント構造を保持認識されたテキストを含み、ドキュメントのレイアウトが保持される ALTO XML ファイル (スキーマ 4.2) 。<Applied_skill_name>.xml
TXTプレーンテキスト ドキュメント。元のドキュメント構造は空白文字で保持されます。<Applied_skill_name>.txt
DOCX編集可能編集可能な Word ドキュメント。元の見た目と完全に同一ではない場合があります。<Applied_skill_name>.docx
DOCXレイアウト再現編集不可の Word ドキュメント。元のドキュメント構造が完全に保持されます。<Applied_skill_name>.docx
XLSX編集可能な Excel ドキュメント。元のドキュメント構造が保持されます。<Applied_skill_name>.xlsx
PPTX編集可能な PowerPoint ドキュメント。元のドキュメント構造が保持されます。<Applied_skill_name>.pptx
HTML元のドキュメント構造を保持する HTML ドキュメント。<Applied_skill_name>.html
JSON、XML、または ALTOXML で テキストのみ を選択すると、DOCX、XLSX、PPTX へのエクスポートは利用できなくなります。
JSON、XML、ALTOXML のエクスポートオプション (テキストのみ および ドキュメント構造を保持) は同一である必要があります。これらの形式のいずれかに設定すると、同じオプションが他の形式にも適用されます。
エクスポートされたテキストには、手動確認で 手動確認 operator によって行われた field 値の変更が反映されます。
共有フォルダーにエクスポートする場合、すべてのファイルはトランザクション フォルダーに保存されます。トランザクション内に同一タイプのドキュメントが複数ある場合、ファイル名には 2 から始まる数値の接尾辞が付与されます。

文書画像のエクスポート (Image タブ)

FormatExport OptionDescriptionFile Name
PDFPDF/A-3a文書画像にテキストレイヤーを重ねた PDF ファイルです。手動確認での変更が反映されます。<Applied_skill_name>.pdf
PDFPDF/A-3b文書画像にテキストレイヤーを重ねた PDF ファイルです。手動確認での変更が反映されます。<Applied_skill_name>.pdf
PDF画像のみテキストレイヤーのない、PDF/A-3b 準拠の編集不可の PDF です。<Applied_skill_name>.pdf
TIFFTIFF 形式の補正済み画像です。<Applied_skill_name>.tiff
JPEG最大品質品質 95% の補正済み JPEG 画像です。pages/page_<N>.jpg
JPEGファイルサイズを小さく品質 75% の補正済み JPEG 画像です。ファイルサイズを抑えながら、判読可能な品質を維持します。pages/page_<N>.jpg
各 PDF エクスポートオプションでは、ファイルサイズを小さく (既定) と 最大品質 のいずれかを選択できます。ファイルサイズを小さく では Mixed Raster Content (MRC) 圧縮が使用され、テキスト、画像、背景ごとに最適な圧縮方式が個別に選択されます。 共有フォルダーにエクスポートする場合は、トランザクション内の文書ごとにサブフォルダーが作成されます。
  • サブフォルダー名は <Applied_skill_name>_<N>、または JSON エクスポートで 値のみ が有効な場合は <Applied_skill_name>_fields_<N> です。N はトランザクション内の文書の連番です (文書が複数ある場合は 2 から始まります) 。
  • サブフォルダー内の Pages サブフォルダーに JPG ファイルが保存され、ファイル名は page_<N>.jpg になります。N はページ番号です。
  • PDF ファイルと TIFF ファイルはトランザクションフォルダーに保存されます。
  • 同じ種類の文書が複数ある場合は、ファイル名に 2 から始まる数値の接尾辞が追加されます。

一般的な命名規則

エクスポートされるファイルの多くは、名前に <Applied_skill_name> を含みます。これは次のいずれかを表します。
  • ドキュメントに最後に適用された Document skill の名前
  • いずれの Document skill も適用されていない場合は、最後に適用された 分類スキル の名前
  • Process skill のフロー内に少なくとも 1 つ存在していても、Document skill または Classification skill が何も適用されなかった場合は Unknown
複数の出力ファイルがあり、共有フォルダーへのエクスポートが構成されている場合は、各ファイル名が一意になるように、連番がファイル名に付与されます。

エラー出力

トランザクションが正常に完了しなかった場合、Vantage は次の情報を含む Error.json ファイルを生成します。
  • トランザクション ID
  • トランザクションのステータス (Failed)
  • エラーメッセージ
  • トランザクションに含まれるすべてのソース ファイルの識別子と名前の配列
エクスポートされたデータは、保持ポリシーに従って、既定では 2 週間保存されます。

Output アクティビティ

Output アクティビティの概要と、対応する出力先について説明します。

共有フォルダーにエクスポート

SFTP 経由でアクセス可能な共有フォルダーに処理結果を送信します。

外部システムにエクスポート

カスタム スクリプトを使用して、結果をサードパーティ システムにエクスポートします。

JSON Schema

トランザクションごとに生成される JSON 出力の構造。

XML Schema

トランザクションごとに生成される XML 出力の構造。