抽出された Field 値のエクスポートオプション(Fields タブ)
| Format | Export Option | Description | File Name |
|---|---|---|---|
| JSON | 値、メタデータ、およびドキュメントごとの field 構造 | すべてのデータ抽出結果。出力ファイルの構造は Developer’s Guide に記載されています。 | <Applied_skill_name>.json |
| JSON | 値のみ | Field の値とルールエラー。出力ファイルの構造は Developer’s Guide に記載されています。 | <Applied_skill_name>_fields.json |
| CSV | 値のみ | Field の値。注: 画像フィールドをエクスポートする場合、CSV ファイル内でその値は空になります。グループ内に繰り返し構造がネストされている場合、その名前は “New Group/New Table” と表示されますが、子ファイル名ではスラッシュがアンダースコアに置き換えられます(例: New Group_New Table_055fe8c.csv)。 | <Applied_skill_name>.csv* |
- 親 CSV ファイルの名前:
<Applied_skill_name>.csv - 繰り返しオブジェクトの子 CSV ファイルの名前:
<Field_path>_<random 7-character identifier>.csv - 子 CSV ファイルの名前が 250 文字を超える場合は、代替の命名規則が使用されます:
<Field_ID>_<random 7-character identifier>.csv
- CSV ファイル名に 2 から始まる数値のポストフィックスが追加されます。
- 子 CSV ファイル用にトランザクションフォルダー内にサブフォルダーが作成されます。
- サブフォルダー名は次のとおりです:
<Applied_skill_name>_<N>または<Applied_skill_name>_fields_<N>(JSON エクスポート - 値のみ が有効な場合)。ここで N はトランザクション内のドキュメントの通し番号(複数のドキュメントがある場合は 2 から開始)です。 - 繰り返しオブジェクトについては、子 CSV ファイル名が親 CSV ファイルの field 値に記載されます。
- 1 行目に field 名が記載されます。
- 列の区切りにはカンマを使用します。
- エンコードは UTF-8(BOM 付き)です。
- 繰り返しフィールドまたはグループの空のインスタンス、および空のテーブル行はエクスポートされません。つまり、生成される CSV ファイルに空行は含まれません。
Document テキストのエクスポートオプション(Text タブ)
| Format | Export Option | Description | File Name |
|---|---|---|---|
| JSON | テキストのみ | 認識されたテキストのみを含む JSON ファイル。ドキュメントのレイアウトは保持されません。注: このオプションを選択すると、DOCX、XLSX、PPTX へのエクスポートはできません。 | <Applied_skill_name>_text.json |
| JSON | ドキュメント構造を保持 | 認識されたテキストを含み、ドキュメントのレイアウトが保持される JSON ファイル。 | <Applied_skill_name>_text.json |
| XML | テキストのみ | 認識されたテキストのみを含む XML ファイル。ドキュメントのレイアウトは保持されません。注: このオプションを選択すると、DOCX、XLSX、PPTX へのエクスポートはできません。 | <Applied_skill_name>.xml |
| XML | ドキュメント構造を保持 | 認識されたテキストを含み、ドキュメントのレイアウトが保持される XML ファイル。 | <Applied_skill_name>.xml |
| ALTOXML | テキストのみ | 認識されたテキストのみを含む ALTO XML ファイル。ドキュメントのレイアウトは保持されません。ファイルは ALTO 規格のスキーマバージョン 4.2 に準拠しています。注: このオプションを選択すると、DOCX、XLSX、PPTX へのエクスポートはできません。 | <Applied_skill_name>.xml |
| ALTOXML | ドキュメント構造を保持 | 認識されたテキストを含み、ドキュメントのレイアウトが保持される ALTO XML ファイル。ファイルは ALTO 規格のスキーマバージョン 4.2 に準拠しています。 | <Applied_skill_name>.xml |
| TXT | プレーンテキスト ドキュメント。元のドキュメント構造は空白文字で保持されます。 | <Applied_skill_name>.txt | |
| DOCX | 編集可能 | 編集可能な Word ドキュメント。元の見た目と完全に同一ではない場合があります。 | <Applied_skill_name>.docx |
| DOCX | レイアウト再現 | 編集不可の Word ドキュメント。元のドキュメント構造が完全に保持されます。 | <Applied_skill_name>.docx |
| XLSX | 編集可能な Excel ドキュメント。元のドキュメント構造が保持されます。 | <Applied_skill_name>.xlsx | |
| PPTX | 編集可能な PowerPoint ドキュメント。元のドキュメント構造が保持されます。 | <Applied_skill_name>.pptx | |
| HTML | 元のドキュメント構造を保持する HTML ドキュメント。 | <Applied_skill_name>.html |
注: JSON、XML、ALTOXML のエクスポートオプション(テキストのみ および ドキュメント構造を保持)は同一である必要があります。これらの形式のいずれかに別のエクスポートオプションを指定すると、そのオプションが他の形式にも適用されます。
ドキュメント画像のエクスポートオプション(画像タブ)
| Format | Export Option | Description | File Name |
|---|---|---|---|
| PDF/A-3a | ドキュメント画像の上にTextレイヤーを重ねたPDFファイル。Textレイヤーには、手動確認中にManual Review Operatorが行ったfield値の変更が反映されます。 | <Applied_skill_name>.pdf | |
| PDF/A-3b | ドキュメント画像の上にTextレイヤーを重ねたPDFファイル。Textレイヤーには、手動確認中にManual Review Operatorが行ったfield値の変更が反映されます。 | <Applied_skill_name>.pdf | |
| Image-only | Textレイヤーのない、PDF/A-3b規格の編集不可のPDF。 | <Applied_skill_name>.pdf | |
| TIFF | 強化された画像を含むTIFF形式のファイル。 | <Applied_skill_name>.tiff | |
| JPEG | Maximum quality | 強化された画像を含むJPEG形式のファイル。この圧縮オプションを選択した場合、画像品質レベルは95%に設定されます。 | pages/page_<N>.jpg |
| JPEG | Smaller file size | 強化された画像を含むJPEG形式のファイル。この圧縮オプションを選択した場合、画像品質レベルは75%に設定されます。これにより、可読性を保ちながらファイルサイズを削減できます。 | pages/page_<N>.jpg |
Note: 各PDFエクスポートオプションでは、“smaller file size”(デフォルト)と”maximum quality”を選択できます。smaller file sizeはMixed Raster Content(MRC)圧縮によって実現され、Text、画像、背景それぞれに最適な圧縮率を個別に適用します。共有フォルダーへエクスポートする場合、トランザクション内の各ドキュメントごとにサブフォルダーが作成されます。次のルールと命名規則が適用されます。
- サブフォルダー名は次のいずれかになります:
<Applied_skill_name>_<N>、または<Applied_skill_name>_fields_<N>(JSONエクスポートのValues onlyが有効な場合)。Nはトランザクション内のドキュメントの通し番号です(トランザクション内に複数のドキュメントがある場合は2から開始)。 - このサブフォルダー内に、JPGファイルを保存するPagesサブフォルダーが作成されます。ファイル名は
page_<N>.jpgの形式で、Nはページの通し番号です。 - PDFおよびTIFFファイルはトランザクションフォルダーに保存されます。
- トランザクション内に同一種類のドキュメントが複数ある場合、ファイル名には2から始まる数値の接尾辞が追加されます。
一般的な命名規則
<Applied_skill_name> を含みます。これは次のいずれかを表します。
- ドキュメントに最後に適用された Document skill の名前
- いずれの Document skill も適用されていない場合は、ドキュメントに最後に適用された 分類スキル の名前
- Process skill のフローに少なくとも一方が存在するものの、ドキュメントにも 分類スキル にも何も適用されなかった場合は “Unknown”
エラーが発生したトランザクション
Error.json ファイルを生成します。このファイルには、トランザクションに関する次の情報を含む JSON 文字列が格納されます:
- トランザクション識別子
- トランザクションのステータス(Failed)
- エラーメッセージ
- トランザクション内のすべてのソースファイルの識別子と名前を含む配列
