メインコンテンツへスキップSkill を学習およびテストするには、ラベル付きドキュメント、すなわち field の位置とデータ型が明示されているドキュメントのセットが必要です。最も手っ取り早い入手方法は、一部のドキュメントに手動でラベルを付けることですが、これは時間がかかる場合があります。特に、大量のラベル付きドキュメントを要する Deep Learning を使用する場合はなおさらです。時間と労力を節約するために、ABBYY では他の Skill から、または手動でレビューされた処理結果から、ラベル付きドキュメントを再利用する複数の方法を提供しています。
アップロードした各ドキュメントについて、すべてのfieldの位置をマークし、想定されるデータの種類を指定してラベリングします。信頼性の高い学習結果を得るには、これらのガイドラインに従ってください。
ラベル付きドキュメントをフォルダーからインポートする
ラベル付きドキュメントは、次のソースからも取得できます。
いずれの場合も、まずラベル付きドキュメントをフォルダーにエクスポートします。次に、そのフォルダーからラベル付きドキュメントをインポートし、Skill のトレーニングに使用できます。
本番で使用するために Skill を公開する際は、通常、トレーニングセットを削除し、公開版には少数のサンプル文書のみを残します。新しいバージョンの Skill を学習する予定がある場合は、同じトレーニングセットをフォルダーにエクスポートすることもできます。
文書とそのラベリングをフォルダーにエクスポートするには、ドキュメントセット名の横にある more アイコンをクリックし、Export Set with Labeling を選択します。宛先フォルダーには次のファイルとサブフォルダーが含まれます。
documentdefinition.json
skillsettings.json
- 各文書の画像、
documentinfo.json、labeling.json ファイルを含む <Document name> サブフォルダー
処理結果が手動確認で修正されると、ラベル付きドキュメントのセットが作成されます。これらのラベル付きドキュメントを再利用するには、field データのエクスポート先を JSON に設定し、各ドキュメントの値、メタデータ、および field 構造 のオプションを有効にし、さらにドキュメント画像を任意の画像形式でエクスポートします。宛先フォルダーには、トランザクションごとに個別のサブフォルダーが作成されます。各 <Transaction ID> サブフォルダーには次の内容が含まれます:
- field データを含む
<Applied skill name>.json ファイル。
- 選択した形式に応じてエクスポートされた画像:
<Applied skill name>.pdf、<Applied skill name>.tiff、または各ページ用の page_*.jpg ファイルを含む <Applied skill name>/Pages サブフォルダー。
FlexiCapture で以前にラベル付けした文書を再利用できます。詳しくは、FlexiCapture からラベル付き文書をインポートするを参照してください。
エクスポート時に作成されたフォルダーからラベル付きドキュメントをインポートするには、All Documents セットを選択し、Upload ボタン横のドロップダウンメニューをクリックして、リストから Import Labeled Documents From Folder… を選択します。次に、先ほど作成したフォルダーを選択します。
注: エクスポート時に作成されたフォルダーは変更しないでください。サブフォルダー構造を変更したり、ファイル名を変更したりすると、インポート時にエラーが発生する可能性があります。
インポートしたドキュメントのいずれかが既存のドキュメントと同じ名前の場合、Advanced Designer は既存ドキュメントのラベリングを更新するか、重複を新規ドキュメントとしてインポートするかを確認します。
Update Labeling を選択した場合:
- 同名の field がある場合、既存ドキュメント内のその位置と設定は、インポートしたドキュメントのものに上書きされます。
- インポートしたドキュメントに存在し、既存ドキュメントに存在しない field は、既存ドキュメントに追加されます。
Import As New Documents を選択した場合、重複はリネームされ、ラベリングを保持したままインポートされます。