OCR Skill を作成するには、次の手順に従います。
- Skill Catalog のツールバーで Create ボタンをクリックします。
- OCR Skill の Skill タイプを選択します。Create OCR Skill ダイアログボックスが開きます。
- General タブで、新しい Skill の名前と説明を入力します。
- Languages タブで:
a. Allowed Languages セクションで、ドキュメントの認識言語を1つ以上選択します。処理時には、セットアップで指定した言語の中からドキュメントの言語が自動的に選択されます。選択する言語数は、認識速度と品質に影響する場合があります。
b. ドキュメントに手書き文字が含まれている場合は、Text Appearance セクションで Handwritten オプションを有効にします。
- Image Enhancements タブでは、Crop Image と Correct Page Orientation が既定で有効になっています。必要に応じて、ドキュメントに不要であればこれらの機能をオフにします。
Crop Image は画像を原本の端までトリミングします。Correct Page Orientation は元の向きを復元するために画像を自動的に回転します。
- Barcodes タブで、ドキュメントに含まれる可能性のあるバーコードの種類を有効にします。選択したバーコードの種類の数は認識速度に影響する可能性があります。
重要: 1つのトランザクションの一環として OCR Skill を使用して複数のドキュメントファイルを処理する場合、すべてのファイルは1つに結合されます。その結果、出力ファイル数は指定したエクスポート形式の数と同一になります。
- Export タブで、1つ以上のドキュメントのエクスポート形式を選択します。詳しくは、Available Export Formats を参照してください。
- JSON (既定の形式) :
- テキストのみ (既定のオプション) 。エクスポートされる JSON ファイルには認識結果のテキストのみが含まれ、ドキュメントのレイアウトは保持されません。テキストのみを選択した場合、DOCX、XLSX、PPTX へのエクスポートはできません。
- ドキュメント構造を保持。エクスポートされる JSON ファイルには認識結果のテキストが含まれ、ドキュメントのレイアウトも保持されます。
- XML:
- テキストのみ。エクスポートされる XML ファイルには認識結果のテキストのみが含まれ、ドキュメントのレイアウトは保持されません。テキストのみを選択した場合、DOCX、XLSX、PPTX へのエクスポートはできません。
- ドキュメント構造を保持。エクスポートされる XML ファイルには認識結果のテキストが含まれ、ドキュメントのレイアウトが保持されます。
- ALTOXML:
- テキストのみ。エクスポートされる ALTO XML ファイルには認識結果のテキストのみが含まれ、ドキュメントのレイアウトは保持されません。テキストのみを選択した場合、DOCX、XLSX、PPTX へのエクスポートはできません。
- ドキュメント構造を保持。エクスポートされる ALTO XML ファイルには認識結果のテキストが含まれ、ドキュメントのレイアウトが保持されます。
JSON、XML、ALTOXML のエクスポートオプション (テキストのみ と ドキュメント構造を保持) は同じである必要があります。これらの形式のいずれかに別のエクスポートオプションを指定した場合、そのオプションが他の形式にも適用されます。
- PDF:
- PDF/A-3a (既定の PDF エクスポート形式)
- PDF/A-3b
- 画像のみ。編集不可の PDF (PDF/A-3b 準拠)
各 PDF のエクスポートオプションで、「ファイルサイズを小さく」 (既定) または「最高品質」から選択します。ファイルサイズの縮小は Mixed Raster Content (MRC) 圧縮によって実現され、テキスト・画像・背景それぞれに最適な圧縮率が個別に適用されます。
- TXT
- DOCX (Microsoft Word) :
- 編集可能。エクスポートされる DOCX ファイルは元の書式とテキストフローを維持しつつ、容易に編集できます。出力ドキュメントは元の画像と異なる場合があります。
- 厳密。エクスポートされる DOCX ファイルは元のドキュメントの書式を忠実に維持します。これにより、出力ドキュメントのテキストや書式に加えられる変更が制限される場合があります。
- XLSX (Microsoft Excel)
- TIFF
- JPEG:
- 最高品質。エクスポートされるファイルには、圧縮率 95% の JPEG が含まれます。
- サイズ縮小。エクスポートされるファイルには、圧縮率 75% の JPEG が含まれます。
- PPTX (Microsoft PowerPoint)
- HTML