メインコンテンツへスキップ
Vantage では、ドキュメントのフィールド、Text、画像に対して次のエクスポートオプションを提供します。

抽出された Field 値のエクスポートオプション(Fields タブ)

FormatExport OptionDescriptionFile Name
JSON値、メタデータ、およびドキュメントごとの field 構造すべてのデータ抽出結果。出力ファイルの構造は Developer’s Guide に記載されています。<Applied_skill_name>.json
JSON値のみField の値とルールエラー。出力ファイルの構造は Developer’s Guide に記載されています。<Applied_skill_name>_fields.json
CSV値のみField の値。注: 画像フィールドをエクスポートする場合、CSV ファイル内でその値は空になります。グループ内に繰り返し構造がネストされている場合、その名前は “New Group/New Table” と表示されますが、子ファイル名ではスラッシュがアンダースコアに置き換えられます(例: New Group_New Table_055fe8c.csv)。<Applied_skill_name>.csv*
*ドキュメントに繰り返しオブジェクト(繰り返しフィールド、フィールドの繰り返しグループ、テーブル)が含まれている場合、それらは個別のファイルとしてエクスポートされます。次の命名規則が使用されます。
  • 親 CSV ファイルの名前: <Applied_skill_name>.csv
  • 繰り返しオブジェクトの子 CSV ファイルの名前: <Field_path>_<random 7-character identifier>.csv
  • 子 CSV ファイルの名前が 250 文字を超える場合は、代替の命名規則が使用されます: <Field_ID>_<random 7-character identifier>.csv
共有フォルダーにエクスポートする場合、親 CSV ファイルはトランザクションフォルダーに保存されます。トランザクション内に同一タイプのドキュメントが複数あり、ドキュメントごとに個別の CSV ファイルが生成される場合、次のルールと命名規則が適用されます。
  • CSV ファイル名に 2 から始まる数値のポストフィックスが追加されます。
  • 子 CSV ファイル用にトランザクションフォルダー内にサブフォルダーが作成されます。
  • サブフォルダー名は次のとおりです: <Applied_skill_name>_<N> または <Applied_skill_name>_fields_<N>(JSON エクスポート - 値のみ が有効な場合)。ここで N はトランザクション内のドキュメントの通し番号(複数のドキュメントがある場合は 2 から開始)です。
  • 繰り返しオブジェクトについては、子 CSV ファイル名が親 CSV ファイルの field 値に記載されます。
CSV ファイルの書式は次のとおりです。
  • 1 行目に field 名が記載されます。
  • 列の区切りにはカンマを使用します。
  • エンコードは UTF-8(BOM 付き)です。
  • 繰り返しフィールドまたはグループの空のインスタンス、および空のテーブル行はエクスポートされません。つまり、生成される CSV ファイルに空行は含まれません。

Document テキストのエクスポートオプション(Text タブ)

FormatExport OptionDescriptionFile Name
JSONテキストのみ認識されたテキストのみを含む JSON ファイル。ドキュメントのレイアウトは保持されません。注: このオプションを選択すると、DOCX、XLSX、PPTX へのエクスポートはできません。<Applied_skill_name>_text.json
JSONドキュメント構造を保持認識されたテキストを含み、ドキュメントのレイアウトが保持される JSON ファイル。<Applied_skill_name>_text.json
XMLテキストのみ認識されたテキストのみを含む XML ファイル。ドキュメントのレイアウトは保持されません。注: このオプションを選択すると、DOCX、XLSX、PPTX へのエクスポートはできません。<Applied_skill_name>.xml
XMLドキュメント構造を保持認識されたテキストを含み、ドキュメントのレイアウトが保持される XML ファイル。<Applied_skill_name>.xml
ALTOXMLテキストのみ認識されたテキストのみを含む ALTO XML ファイル。ドキュメントのレイアウトは保持されません。ファイルは ALTO 規格のスキーマバージョン 4.2 に準拠しています。注: このオプションを選択すると、DOCX、XLSX、PPTX へのエクスポートはできません。<Applied_skill_name>.xml
ALTOXMLドキュメント構造を保持認識されたテキストを含み、ドキュメントのレイアウトが保持される ALTO XML ファイル。ファイルは ALTO 規格のスキーマバージョン 4.2 に準拠しています。<Applied_skill_name>.xml
TXTプレーンテキスト ドキュメント。元のドキュメント構造は空白文字で保持されます。<Applied_skill_name>.txt
DOCX編集可能編集可能な Word ドキュメント。元の見た目と完全に同一ではない場合があります。<Applied_skill_name>.docx
DOCXレイアウト再現編集不可の Word ドキュメント。元のドキュメント構造が完全に保持されます。<Applied_skill_name>.docx
XLSX編集可能な Excel ドキュメント。元のドキュメント構造が保持されます。<Applied_skill_name>.xlsx
PPTX編集可能な PowerPoint ドキュメント。元のドキュメント構造が保持されます。<Applied_skill_name>.pptx
HTML元のドキュメント構造を保持する HTML ドキュメント。<Applied_skill_name>.html
共有フォルダーにエクスポートする場合、すべてのファイルはトランザクション フォルダーに保存されます。トランザクション内に同一タイプのドキュメントが複数ある場合、ファイル名には 2 から始まる数値の接尾辞が付与されます。 エクスポートされるテキストには、手動確認中に Manual Review Operator によって行われた field の値の変更が反映されます。
注: JSON、XML、ALTOXML のエクスポートオプション(テキストのみ および ドキュメント構造を保持)は同一である必要があります。これらの形式のいずれかに別のエクスポートオプションを指定すると、そのオプションが他の形式にも適用されます。

ドキュメント画像のエクスポートオプション(画像タブ)

FormatExport OptionDescriptionFile Name
PDFPDF/A-3aドキュメント画像の上にTextレイヤーを重ねたPDFファイル。Textレイヤーには、手動確認中にManual Review Operatorが行ったfield値の変更が反映されます。<Applied_skill_name>.pdf
PDFPDF/A-3bドキュメント画像の上にTextレイヤーを重ねたPDFファイル。Textレイヤーには、手動確認中にManual Review Operatorが行ったfield値の変更が反映されます。<Applied_skill_name>.pdf
PDFImage-onlyTextレイヤーのない、PDF/A-3b規格の編集不可のPDF。<Applied_skill_name>.pdf
TIFF強化された画像を含むTIFF形式のファイル。<Applied_skill_name>.tiff
JPEGMaximum quality強化された画像を含むJPEG形式のファイル。この圧縮オプションを選択した場合、画像品質レベルは95%に設定されます。pages/page_<N>.jpg
JPEGSmaller file size強化された画像を含むJPEG形式のファイル。この圧縮オプションを選択した場合、画像品質レベルは75%に設定されます。これにより、可読性を保ちながらファイルサイズを削減できます。pages/page_<N>.jpg
Note: 各PDFエクスポートオプションでは、“smaller file size”(デフォルト)と”maximum quality”を選択できます。smaller file sizeはMixed Raster Content(MRC)圧縮によって実現され、Text、画像、背景それぞれに最適な圧縮率を個別に適用します。
共有フォルダーへエクスポートする場合、トランザクション内の各ドキュメントごとにサブフォルダーが作成されます。次のルールと命名規則が適用されます。
  • サブフォルダー名は次のいずれかになります: <Applied_skill_name>_<N>、または <Applied_skill_name>_fields_<N>(JSONエクスポートのValues onlyが有効な場合)。Nはトランザクション内のドキュメントの通し番号です(トランザクション内に複数のドキュメントがある場合は2から開始)。
  • このサブフォルダー内に、JPGファイルを保存するPagesサブフォルダーが作成されます。ファイル名はpage_<N>.jpgの形式で、Nはページの通し番号です。
  • PDFおよびTIFFファイルはトランザクションフォルダーに保存されます。
  • トランザクション内に同一種類のドキュメントが複数ある場合、ファイル名には2から始まる数値の接尾辞が追加されます。

一般的な命名規則

エクスポートされるファイルの多くは、名前に <Applied_skill_name> を含みます。これは次のいずれかを表します。
  • ドキュメントに最後に適用された Document skill の名前
  • いずれの Document skill も適用されていない場合は、ドキュメントに最後に適用された 分類スキル の名前
  • Process skill のフローに少なくとも一方が存在するものの、ドキュメントにも 分類スキル にも何も適用されなかった場合は “Unknown”
複数の出力ファイルがあり、共有フォルダーへのエクスポートが構成されている場合は、各ファイル名が一意になるように、連番がファイル名に付与されます。

エラーが発生したトランザクション

トランザクションが正常に完了しなかった場合、Vantage は Error.json ファイルを生成します。このファイルには、トランザクションに関する次の情報を含む JSON 文字列が格納されます:
  • トランザクション識別子
  • トランザクションのステータス(Failed)
  • エラーメッセージ
  • トランザクション内のすべてのソースファイルの識別子と名前を含む配列
既定では、エクスポートされたデータは保持ポリシーに従って 2 週間保存されます。