メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Document Skill を作成したら、次の手順で学習して公開します。
Document Skill の設定を開くには、Skill Designer で Skill 名の右側にある設定アイコンをクリックします。
1

学習用およびテスト用documentsをアップロードする

Skill Designer の Documents タブに移動し、デザイナー中央、ツールバー、または Actions ペインで Upload documents をクリックします。各ファイルには 1 つの Document 画像のみを含める必要があります。
documents のアップロード中は、Skill Designer の上部 (ブックマークの右側) に進行状況インジケーターが表示されます。Document をプレビューするには、その名前の左側にあるアイコンをクリックします。プレビューウィンドウの左端をドラッグすると、ブラウザー幅の最大 80% までサイズを変更できます。
2

学習用documentsの field にラベルを付ける

Editor タブに移動します。タブ名をクリックするか、リストから 1 つ以上のdocumentsを選択して、Actions ペインの Label Fields and Create Business Rules をクリックします。抽出したいすべての field にラベルを付けます。ここでは、バリデーションルールや Skill parameter を追加することもできます。
3

Skill を学習し、精度を確認する

Actions ペインで Train をクリックします。学習が完了すると、Train ボタンに Completed と表示されます。学習を停止するには、Train ボタンの下にある Cancel をクリックします。抽出精度を確認し、誤りを修正します。
4

繰り返す

結果に満足するまで、前の手順を繰り返します。
5

Skill Catalog に公開する

Skill を Skill Catalog に公開して、利用できるようにします。
6

(任意)Skill を派生させる

公開済みの Skill から新しい Derived Skill を作成できます。Derived Skill は base Skill のすべてのルールと field を継承し、加えた変更を保持したまま、最新の base バージョンにシームレスに更新できます。

構造化文書を処理する

ABBYY Vantage には、構造化文書を処理するための機械学習モードがあります。構造化文書とは、どの文書でも field の位置が同じ文書のことです。たとえば、アンケート、申込書、確定申告書などがあります。このモードでは、複数の候補があるフォームも処理できます。たとえば、年度ごとに異なる IRS Form 1040 のように、field の種類や位置が候補ごとにわずかに異なる場合です。各候補は個別の構造化文書として扱われるため、それぞれについて空白のフォームをアップロードする必要があります。
1

固定フォーム文書を有効にする

新しい Document skill を作成し、固定フォーム文書 トグルをオンにします。
Document skill の設定内にある固定フォーム文書トグル
2

候補ごとに空白のフォームをアップロードする

Blank Form タブに移動し、デザイナー中央、ツールバー、または Actions ペインで Upload Blank Form をクリックします。空白のフォームがない場合は、入力済みのフォームをアップロードして空白フォームとしてマークします。1 つの Skill で、1 つのフォームについて最大 10 個の候補を処理できます (たとえば、年度ごとに異なる IRS Form 1040) 。
3

field にラベルを付ける

抽出する field にラベルを付けます。
4

field の背景を除去する(必要な場合)

field settings で、背景が認識に影響する可能性がある field に対して Eliminate field background を有効にします。
5

Skill を学習する

Actions ペインで Train をクリックします。
6

入力済み文書でテストする

Test Set タブをクリックし、入力済みのテスト文書をアップロードします。各文書ですべての field に正しくラベルが付いていることを確認します。field の位置がアップロード済みの空白フォームと一致しない場合は、その候補用の空白フォームを追加します。
7

テスト結果を確認する

Actions ペインで Skill をテストします。処理が完了したら、結果を確認します。期待どおりでない場合は、ラベル付けを調整して再度学習します。
8

Skill Catalog に公開する

Skill を Skill Catalog に公開して、使用できるようにします。
固定フォーム Skill の Skill Designer に表示されるタブ
Advanced Designer で Skill を編集し、Forms Activity を他の activities と組み合わせると、Vantage では 固定フォーム文書 トグルが無効になり、その Skill は Advanced Designer 以外では編集できなくなります。

構造化と半構造化を切り替える

後で、ドキュメントを半構造化として扱う方が適切だと判断した場合は、次の手順に従います。
  1. Document skill の設定を開きます。
  2. 固定フォーム文書 トグルをオフにします。ラベル付けされたすべての field は保持されます。
  3. Skill を再学習します。

テーブルと繰り返しグループを扱う

構造化文書を処理する場合、Vantage でテーブルと繰り返しグループを扱えるのは、次の条件を満たすときです。
  • テーブルの最大行数、またはグループの最大インスタンス数が事前にわかっている。
  • テーブルまたはグループの境界が固定されている。
フォームのすべての候補で出現する可能性がある各行にラベルを付けてください。処理結果にはデータがある行のみが表示され、空の行は無視されます。
サポートされているのはテキスト値を含むテーブルのみです。テーブルにチェックボックスやバーコードを含む列がある場合は、代わりに繰り返しグループを使用してください。
グループ内の行数またはインスタンス数が事前にわからない場合は、Vantage の別の機能を使用してください。詳しくは Advanced Designer で構造化文書を処理する を参照してください。

認識言語を設定する

文書を処理する際、Vantage は Skill で有効化されている言語の一覧から処理に使用する言語を選択します。既定では、新しい Skill では英語、フランス語、ドイツ語、スペイン語が有効になっています。 一覧を変更するには、次の手順に従います。
  1. Document skill の設定を開きます。
  2. 必要な言語を選択します。一覧はアルファベット順に並んでおり、現在選択されている言語は先頭に固定表示されます。少なくとも 1 つの言語を選択する必要があります。
  3. 変更を保存するには Save をクリックし、破棄するには Cancel をクリックします。
選択した言語の数によっては、文書処理の速度に影響する場合があります。一覧は、実際に文書で使用されると想定される言語のみに絞ってください。
Skill の学習後でも認識言語は変更できます。変更を適用するには、文書を再度アップロードして Skill を再学習してください。

オンラインラーニングを設定する

オンラインラーニングでは、処理済みのdocumentsをトレーニングセットに収集し、それらのdocumentsを使って Skill の学習を継続します。この機能は、Document skill と分類スキルで使用できます。 Document skill では、2 つのオンラインラーニングモードをサポートしています。
モード動作
Collect and learn既定のモードです。documents が収集され、Skill は自動的に再学習されます。
Collect onlydocuments は収集されますが、Skill は再学習されません。手動で再学習する前に、トレーニングセットに追加されたdocumentsを確認する場合に使用します。
Collect only を使用するには、Document skill の設定を開いて、このモードを選択します。
Document skill の設定にある Collect only モード
Skill のオンラインラーニングを有効または無効にする方法については、オンラインラーニングを有効にするを参照してください。

オンラインラーニングを有効にする

公開後も、本番環境のdocumentsを使って Document skill を継続的に改善できます。

documents のラベル付け

学習時に構造化 documents および半構造化 documents をラベル付けするためのガイドラインです。

Skill を作成する

前提条件 — Skill Designer で開く前に、Skill Catalog で新しい Skill を作成しておきます。

Advanced Designer で構造化 documents を処理する

構造化 documents の処理を他の Vantage テクノロジーと組み合わせる必要がある場合は、Advanced Designer を使用します。

サポートされている認識言語

Vantage の各 Skill でサポートされている OCR 言語の一覧です。