メインコンテンツへスキップ

A

ABBYY FlexiCapture

構造化文書 (fixed forms) 、半構造化文書 (flexible forms and documents) 、非構造化文書 (free-format documents) など、さまざまな文書タイプから単一のフローでデータを抽出するためのソフトウェアソリューション。

ABBYY FlexiLayout Studio

文書構造の FlexiLayout を作成し、自動文書認識に利用できるプログラムです。

ABBYY FormDesigner

ABBYY FormDesigner は、機械可読フォームのレイアウトを設計するためのツールです。これらのフォームは、印刷して記入した後、ABBYY FlexiCapture の自動フォーム入力システムで処理できます。フォームのレイアウト設計は重要な工程です。設計したレイアウトの品質 (機械可読性) が、その後のすべての処理工程、つまりスキャン、認識、検証、エクスポートの有効性を左右するためです。

FCFORINVOICES

FC は、請求書処理のための使いやすいインテリジェントなソフトウェアソリューションです。

ADF

自動原稿送り装置。追加の手動操作を行うことなく、任意の枚数の文書をスキャンできる自動給紙装置です。

管理者

ABBYY FlexiCapture のユーザーのうち、ドキュメント入力用にプログラムを設定する権限を持つユーザー。これには、Document Definitions およびインポートプロファイルの作成と編集が含まれます。

アルファベット

説明されている言語で使用される文字の集合です。

アンカー

アンカーはフォーム設計における特別な要素で、システムがスキャン後にマッチングを実行するために使用されます (傾きを補正し、スキャン時の線形・非線形のゆがみを補正し、ブロックの位置を計算します) 。最も信頼性の高いアンカーは黒い四角形で、通常はフォームの四隅に配置されています。画像上に特別なアンカーがない場合は、他の静的要素を使って Document Definition のマッチングを行うこともできます。たとえば、区切り線、つまりテーブルの罫線や枠線などの縦線または横線、あるいは明確な静的テキスト (フォームのヘッダー、フィールドのラベル、説明情報など) です。Document Definition のマッチングに使用する静的要素では、Use for Document Definition matching オプションを有効にする必要があります。

アンカーバーコード

データ抽出を目的としないバーコードを表す静的要素です。アンカーバーコードは、Document Definition のマッチングや識別に使用できます。

アンカーテキスト

空白フォーム上に存在し、データ抽出を目的としないテキストを表す静的要素です。説明文や見出しなどのテキストが該当します。アンカーテキストは、Document Definition のマッチングや識別に使用できます。

角形の基準マーク。

別紙

フィールドを含まないものの、ドキュメントのアセンブリに含まれるページです。これらのページからデータは抽出されませんが、画像または検索可能な PDF ファイルとして保存できます。(管理者) 別紙を含む文書の Document Definitions の作成を参照してください。

アセンブリ エラー

このエラーは、ドキュメント アセンブリ中に作成されたドキュメントに他のドキュメントのページが含まれている場合、そのドキュメント自体のページの順序が正しくない場合、またはドキュメント内のページで主要項目の値が一致しない場合に発生します。

自動学習

ABBYY FlexiCaptureが新しいfieldの検出と文書タイプの識別を自動的に学習する機能。

B

バーコード

一定の長さの白黒のバーが交互に並んだ、デジタル情報を符号化する機械可読なフォーム要素です。文書内のバーコードは、情報の抽出 (Barcode フィールド) や、Document Definition の照合と識別 (アンカー バーコード) に使用できます。

Barcode フィールド

認識対象のバーコードを含む Document Definition の field。

バーコード認識

バーコードの画像を数値またはテキストに変換すること。

バッチタイプ

対応するバッチ内の文書をどのように処理するかを定義する、バッチのプロパティ。 (管理者) バッチタイプを参照してください。

白黒罫線フォーム

情報fieldの境界が、スキャンしても消えない通常の線で構成されたフォームです。

黒い四角

黒い四角形のアンカー。

明るさ

スキャナがグレースケールの中間調を白として検出する境界を決める、光感度のしきい値です。

C

チェックマーク

記入者がチェック、バツ、点、塗りつぶしなどの印を付ける、機械可読なフォーム要素です。

チェックマーク field

チェックマークを含む Document Definition の field。

チェックマークグループ

近接して配置された複数のチェックマークを1つのまとまりとして扱う、機械可読な帳票の要素です。チェックマークグループでは、1つまたは複数のチェックマークを選択できます。

チェックマークグループfield

チェックマークグループを含むDocument Definitionのfield。

分類器

FlexiLayout Studio で作成されるプロジェクトで、Document Definitions を適用する前にページを事前に識別し、対応する FlexiLayout または代替レイアウトを選択するためのものです。

分類器のF-measure

ドキュメント分類における適合率と再現率を組み合わせた指標です。0 から 1 までの数値、または 0% から 100% までの百分率で表されます。 カテゴリのF-measureは、(β^2 + 1) * P * R / (β^2 * P + R) で計算されます。ここで、P はそのカテゴリの適合率、R はそのカテゴリの再現率、β は対象のモデルにおける適合率と再現率の相対的な重み付けを決定する自由パラメータです。P = R = 1 (100%) のとき、最大値は 1 (100%) です。 テスト用または学習用バッチのF-measureは、(β^2 + 1) * P * R / (β^2 * P + R) で計算されます。ここで、P はそのテスト用または学習用バッチの適合率、R はそのテスト用または学習用バッチの再現率、β は対象のモデルにおける適合率と再現率の相対的な重み付けを決定する自由パラメータです。

コードページ

特定の言語の文字セットを定義する値のテーブル。

色付き背景のフォーム

スキャン時に消える色付きの背景上に、すべての情報fieldが白い矩形として配置されているフォーム。

コントラスト

画像内の最も暗い部分と最も明るい部分の明るさの比率。

コントロール

データ フォーム上のテキスト、field、またはボタンの要素。 (管理者) 詳細については、Insert Controlを参照してください。

修正済みチェックマーク

誤って選択され、その後に抹消されたチェックマークです。チェックマーク field で[修正を許可]オプションが有効になっている場合、プログラムは抹消されたチェックマークを未選択として認識します。

十字

十字形のアンカー。

カスタムデータ型

ユーザー定義のデータ型。 (管理者) カスタムデータ型の作成をご覧ください。

D

データベースルックアップ

認識されたデータを対応するデータベースレコードと照合すること。

データセット

自動文書チェックに使用されるデータです。データセットは、FC にテーブルとして保存してスケジュールに従って同期することも、外部ソースから取得することもできます。

データ型

field の特性の 1 つに、データ型があります。データ型には、数値、日付、テキスト、姓、名、住所などがあります。データ型は、その field に現れる可能性のある単語の集合を定義します。データ型は、認識精度に影響する重要な認識パラメーターです。データ型を正しく指定すると、誤認識される文字数を大幅に減らすことができます。

説明ファイル

Hot Folder から画像を追加する際に、バッチの作成方法を定義する補助ファイルです。(管理者) 詳細については、説明ファイルを参照してください。

辞書

辞書はデータ型の作成時に指定します。したがって、field にアタッチされたデータ型によって、認識時および検証時に使用される辞書が決まります。あらかじめ用意された辞書を持つ既存の定義済みデータ型に加えて、このプログラムでは、カスタム辞書に基づいて作成したデータ型もアタッチできます。辞書データは手動で入力することも、ファイルからロードすることもできます。

ドキュメント

1つ以上のページ画像と、そこから抽出されたデータを組み合わせたものです。

文書バッチ

ユーザーがグループ化した文書の組み合わせです。通常、バッチには1回のスキャンで取り込まれた一連の文書、または特定のフォルダーからインポートされた文書が含まれます。(管理者) 文書バッチを参照してください。

ドキュメントクラス

複数の共通する特性を持つ文書またはページの集合です。

文書データ

文書ページ画像の処理 (認識、検証、認識結果の編集) 後に抽出されるデータ。

Document Definition

Document Definition は、特定の種類の文書を識別して処理するための原則を定義するもので、次の内容が含まれます。
  • 文書構造。つまり、この種類の文書で許可されるページ順序の説明であり、文書をどのようにまとめるかを定義します
  • 文書セクションの定義
  • field データが満たすべきルールの一覧
  • データ ウィンドウ (データ フォーム ビュー) 内の field とそのシグネチャの位置
  • 文書のエクスポート設定
  • 文書処理設定

Document Definition の識別

識別子を使って、必要な Document Definition を特定するプロセスです。

Document Definition のマッチング

Document Definition を選択し、その field を画像に対してマッチングするプロセス。

Document Definition の公開

編集後の新しい Document Definition バージョンを利用可能にすること。公開済みバージョンは作業バッチ内のドキュメント処理に使用されますが、未公開のローカルバージョンはテストバッチの Document Definition の処理にのみ使用できます。(管理者) Document Definition の編集と公開を参照してください。

Document Definition セクション

Document Definition の構成要素です。論理的に完結した一連の field を含む 1 ページまたは複数ページに対応します。1 つのセクション内の field は、ページをまたいで続くことがあります (たとえば、複数ページにまたがるテーブル) 。一方、異なるセクションの field セットが重複することはありません。 セクション定義は、flexible または fixed にできます。

文書識別

文書を、あらかじめ定められた複数の文書タイプのいずれかに割り当てる処理。

文書セット

特定の目的のために使用される、論理的に関連した文書の集まりです。たとえば、業務プロセスは、申請者が提出する一式の文書 (記入済みの申請書と、それに添付するいくつかの文書) をきっかけに開始されることがあります。申請書に申請者が記入した情報によっては、添付文書の一部は任意ですが、申請書に必ず添付しなければならない文書もあります。

ドキュメントのテキスト

FlexiLayout が適用される前の予備認識の段階で抽出された、ドキュメント内のすべてのテキストです。必要に応じて、このテキストを保存できます (その場合、ハードディスクに追加の空き容量が必要です) 。保存したテキストは、Verification の際に使用できます。

文書タイプ

複数の文書に共通するいくつかの特徴があり、業務プロセスにおいて特定の役割を果たす文書の分類です。 文書タイプの例としては、請求書、契約書、パスポートなどがあります。

文書バリアント

同じ種類に属し、いくつかの特徴を共有する複数の文書。 文書バリアントの例としては、異なるベンダーの請求書や、同じ銀行のクレジット明細書があります。

ドットマトリクスプリンター

認識可能なテキストの一種で、ドットマトリクスプリンターで印字されたテキストを表します。

dpi

dots per inch の略。1インチあたりのドット数を表す、画像解像度の単位です。

E

エンティティ

NLP 技術を使用して抽出する必要がある情報を含む field または field グループを指します。エンティティの例としては、人、企業、場所、金額、日付などがあります。

環境変数

テキスト (例: システム設定) を保存するための文字列です。環境変数は、データベースのconnection stringや、エクスポートするファイル名を指定する際に使用する変数の保存に使われることがあります。

エラー / 警告

エラー / 警告は、1 つ以上のfieldから抽出されたデータが、自動チェック時に適用されるruleを満たさない場合や、指定された形式に一致しない場合に発生します。エラー / 警告には、次の 2 種類があります。
  • 単一fieldのエラー / 警告 は、1 つのfieldに影響するruleや形式によって生成されます。
  • 複数fieldのエラー / 警告 は、複数のfieldに影響するruleによって生成されます。

説明テキスト

フォーム名、field名、fieldの説明などの説明テキストを表す、機械可読なフォーム要素です。

エクスポート

処理済みデータを外部の情報システムまたはファイルに転送する処理。

エクスポートプロファイル

処理済みデータの扱いを決める設定一式です。出力ファイルの形式、出力先パス、エクスポート条件などを指定します。

外部データベース

参照データを格納するテキストファイル、または ODBC 対応データベースです。参照データには、抽出された field の取り得る値や、field の抽出に必要な情報が含まれる場合があります。

F

Field

データ抽出を目的としたドキュメントの要素です。field には、単純なもの (内部構造を持たないもの) と複合的なものがあり、たとえばテーブル field では、各セルをテーブルに属する個別の従属 field と見なすことができます。(Administrator) Document Definition field の作成を参照してください。

field 領域

Document Definition で強調表示され、データ抽出の対象となる画像領域です。

field検証

field検証モードでは、不確かな文字は field全体の文脈の中で確認されます。Send to field verification オプションが有効になっている fieldは、field検証に送られます。値の範囲がわかっている、または容易に特定できる fieldを field検証に送ることをお勧めします。そのような fieldの例としては、国名や都市名があります。つまり、その fieldが取り得る値がわかっているということです。

複数のインスタンスを持つ Field

同じ型の複数のオブジェクト (繰り返し現れるオブジェクト) を表すために使用されるFieldです。つまり、これらの複数のオブジェクトは実質的に1つの同じFieldであり、同じプロパティを共有します。複数のインスタンスを持つFieldは、同一のFieldを複数作成する必要がないようにするために使用されます。複数のインスタンスを持つFieldは、個別のファイルまたはデータベーステーブルにエクスポートされます。(管理者) 複数のインスタンスを持つFieldを参照してください。

複数の領域を持つ Field

画像上の複数の領域から構成される field です。こうした領域は、互いに離れた位置に存在する場合があり、別々のページにあることもあります。同じ field に属するすべての領域の値は結合され、1 つの field としてまとめてエクスポートされます。通常は、大きなテーブルのように複数ページにまたがるオブジェクトに使用されます。 (管理者) 複数の領域を持つ Fieldを参照してください。

領域のない field

Document Definition で検出されたものの、画像上に領域を持たない field。(管理者) 領域のない fieldを参照してください。

固定フォーム

書式、数、レイアウトが厳密に定義されており、文書ごとに変わらない固定情報のfieldを持つ文書。

Fixed Document Definition

fixed forms を処理するために設計された、ドキュメントまたはそのセクションの定義です。fixed Document Definition の field は、位置が固定されています。

FlexiLayout

半構造化ドキュメントの構造を記述したものです。この記述は ABBYY FlexiLayout Studio で作成し、ABBYY FlexiCapture にエクスポートします。ファイル形式は *.afl です。FlexiLayout は、柔軟なフォーム内の field を検出して識別するための一種の定義です。

FlexiLayout バリアント

特定の文書バリアント向けに開発された、またはその文書バリアントを基に学習された FlexiLayout。汎用 FlexiLayout と組み合わせて使用されます。

Flexible Document Definition

半構造化文書の処理用に設計された、文書またはそのセクションの定義です。FlexiLayoutをアタッチして作成します。このような Document Definition の fieldには固定位置がありません。これらの fieldは FlexiLayout を使用して検出されます。(管理者) 半構造化文書処理用の Document Definition の作成を参照してください。

帳票

手書きまたはその他の印字方法で人が記入するために作成された、1ページまたは複数ページで構成される文書。

枠付きテキスト

枠で囲まれたテキストを示すテキストマーキングの種類です。

櫛形枠の上にある枠付きテキスト

G

灰色の背景のフォーム

すべての情報fieldが、スキャン時に消える灰色の背景上に白い矩形として配置されたフォームです。

グループ検証

[グループ検証に送信] オプションが有効になっているfieldは、グループ検証に送信されます。数値field内の文字とチェックマークも、グループ検証に送信することをお勧めします。

H

手書きの活字体文字

判読可能なテキストの一種で、活字体で一文字ずつ手書きされた文字を指します。

手書き文字

文字がつながっている、または一部がつながっている、認識可能なテキストの一種です。 注: 現在、認識できる手書き文字は英語のみです。

ホットフォルダー

ローカルまたはリモートのコンピューターのハードドライブ上にあるフォルダーで、画像のインポートに使用されます。通常、ユーザーの操作なしで定期的に繰り返し行われる画像のアップロードに使用されます。(管理者) 画像インポートプロファイルを参照してください。

識別子

アンカーの位置が同じ複数のDocument Definitionsの中から、特定のDocument Definitionを識別して選択するために使用する静的要素です。このような静的要素のプロパティでは、[Document Definition の識別に使用]オプションを有効にする必要があります。

ID プロバイダー

Azure AD、OneLogin、Okta などのサードパーティ システムで、ID 情報を管理し、クライアントに認証サービスを提供するものです。これにより、エンド ユーザーは資格情報を一度入力するだけで、ローカル エリア ネットワーク内のアクセスを許可されたすべてのリソースにアクセスできます。

無視される文字

これらの文字は単語から除外されます。つまり、単語はこれらの文字を含まないものとして、特定のデータ型に関連付けられます。

Image

紙の文書のページをスキャンして得られる電子画像。

画像のノイズ除去

画像内のノイズを除去します。ノイズはスキャン時に発生することがあるため、データ認識の精度を高めるには除去することをお勧めします。ノイズ除去の際には、プログラムはラスター形式のフォームの背景のドットや枠線も削除します。

画像のインポート

処理のために画像をバッチに追加する処理です。インポートは、ファイルやスキャナから画像を追加するか、インポートプロファイルを使用して実行できます。(管理者、検証) ページ画像の追加を参照してください。

画像の回転

画像の中心を軸とした回転です。

インポート プロファイル

画像をバッチに追加する際に使用する設定の組み合わせです。インポート元、画像処理オプション、Hot Folder のクリーンアップ オプションなどが含まれます。(管理者) 画像インポート プロファイルを参照してください。

誤認識された文字

認識の確実性が著しく低い場合に、認識処理中の文字に自動的に割り当てられるステータスです。

インデックスfield

文書の並べ替えや検索のためのインデックスとして使用される値を持つfieldです。 (管理者) インデックスフィールドを参照してください。

反転画像

暗い背景に明るい色の文字が表示された画像。

請求書

納入された商品、その数量、価格、特性 (色や重量など) 、出荷条件、および当事者に関する詳細を記載した文書です。請求書は、FCFORINVOICESという別個のソリューションで処理できます。(管理者、検証) ABBYY FlexiCapture for Invoicesを参照してください。

ICR、Intelligent Character Recognition

これは、手書き風文字の文字や数字が記入された文書を大量に処理するために設計された技術やシステム、つまり手書き風文字を認識する技術を指します。

K

主要項目

ページをドキュメントへ自動的にアセンブリする際のチェックに使用されるフィールドです。主要項目の値は、同じドキュメント内のすべてのページで一致している必要があります。

L

言語 (ローカル)

文書の記載言語と、それに対応する地域パラメーターのセット (日付や住所の表記形式など) を決定するfieldプロパティ。

Layout

文書画像上のfieldの位置。Layoutは自動生成することも、手動で作成することもできます。(管理者) 関連項目: Reference layout

枠で囲まれた文字

個別の枠内の文字

櫛形罫線に重なった文字

M

機械印字されたテキスト

活字組版機器、レーザープリンター、またはインクジェットプリンターで、解像度 300 dpi 以上で印刷された認識可能なテキストの一種です。

機械可読フォーム

自動入力向けに特別に設計されたフォームです。正常に処理するために必要な要素 (アンカー、バーコード、行など) が含まれています。

手動入力field

認識できないテキスト (たとえば、文字が癒着したテキスト) を含み、キーボードから入力する必要がある Document Definition のfield。

MRC (Mixed Raster Content)

テキストとラスター片の両方を含む画像に使用される圧縮方式です。画像を断片ごとに解析し、それぞれに最適な圧縮アルゴリズムを選択します。この方式では、画像の見た目の品質を維持しながら、より高い圧縮率を実現できます。

等幅テキスト

各文字が同じ高さ・幅の枠内に収まっているタイプのマーキングで、スキャン時には枠線が消えます。

複数ページの文書

複数のページから成る文書。

マルチテナンシー

複数の独立したユーザーが ABBYY FlexiCapture を利用できるようにする機能です。各 tenant のデータは他の tenant から完全に分離されており、システムは各 tenant にリソースの一部を割り当てます。

N

NER (固有表現認識) 非構造化テキスト内の属性を検索し、それらを事前定義されたカテゴリに分類する情報抽出ジョブです。 NLP (自然言語処理) 人工知能および数理言語学の一分野です。自然言語のコンピューターによる解析と生成を扱います。応用例の 1 つとして、テキストから意味のある情報を抽出することが挙げられます。これには、機械翻訳、チャットボット、分類、感情分析、データ抽出などが含まれます。

NLP モデル

テキストからどのエンティティやセグメントをどのように抽出するかを決定する仕組みです。NLP モデルの学習時に、対象領域と抽出アルゴリズムが選択されます。

O

OCR (光学文字認識)

印字テキストの光学認識。

OMR (光学式マーク認識)

この技術により、ABBYY FlexiCapture は、フォーム上の通常のマーク (チェック、バツ印など) を高い精度で認識できるだけでなく、誤って付けた後でインクで塗りつぶされたマークも正しく識別できます。

オペレーター

ABBYY FlexiCapture のユーザーで、ドキュメント入力を担当し、画像の追加、認識と検証の実行、認識済みデータのエクスポートを行うユーザー。

オペレーター ロール

ABBYY FlexiCapture におけるユーザーアカウントのプロパティで、ユーザーがアクセスできるデータや、それらのデータに対して実行できる操作を定義します。 (管理者、検証) 設定済みプロジェクトの運用を参照してください。

オーバーレイ

Document Definition エディターで、記入済みフォームのスキャン画像と、同じフォームの空欄の見本画像を重ね合わせる処理。

P

ページ

紙の文書ページの画像とその処理結果。

ページレイアウト

画像上のfieldの位置を示す図。

ページの向き

標準的な向き (上から下、左から右) に対するページの向きです。ページの向きは、ページ画像の認識時に自動的に判定できます。そのため、ABBYY FlexiCapture では想定される向きを指定できます。

画像

認識の対象ではなく、グラフィックオブジェクト (ファイルなど) としてエクスポートすることを目的とした、機械可読フォームの要素です。

画像field

画像を含む Document Definition のfieldです。 適合率 ユーザーが自動分類の精度を評価するための指標です。クラス A と判定されたすべての文書数 (正しく判定されたものと誤って判定されたものの両方) に対する、正しくクラス A と判定された文書数の割合として計算されます。

事前認識

Document Definition による field 検出を容易にするための文書画像の全文認識。

処理能力

特定の期間内に処理されたページ、ドキュメント、またはバッチの平均件数。

(Distributed) 処理ステージ

(Distributed) 文書またはバッチに対して特定の操作が行われるワークフローのステージです (自動的に、またはオペレーターによって実行されます) 。 (Administrator, Developer, Distributed) 処理ステージとキューを参照してください。

禁止文字

このような文字を指定すると、認識速度と認識品質が大幅に向上することがあります。たとえば、大文字のみのテキストを認識する場合は、すべての小文字を禁止文字として指定します。

プロジェクト

プロジェクトとは、ドキュメントのバッチや、それらを処理するために必要な Document Definitions、インポート プロファイルなどの設定をまとめた環境です。 (Administrator) プロジェクトの作成を参照してください。

(Distributed) Q

(Distributed) キュー

(Distributed) タスクやバッチにまとめられ、特定の処理ステージで処理待ちになっている文書。 (管理者, 開発者, Distributed) 処理ステージとキューを参照してください。

R

ラスターフォーム

情報fieldが、ラスター線から成る灰色の背景上の白い矩形として、またはラスター線で区切られた矩形として表されるフォーム。

ラスター線

等間隔のドットで構成される線。 再現率 ユーザーが自動分類の精度を評価するための指標です。正しく識別されたクラス A の文書数を、クラス A に属する全文書数で割って算出されます。

認識

画像要素を特定の文字と照合する処理です。

認識言語

ABBYY FlexiCapture がテキスト認識に使用する言語です。 参照クラス 参照クラスとは、手動分類の際に専門家が文書に割り当てたクラスです。文書内のセクションも文書バリアントも、参照クラスになり得ます。

Reference layout

自動的に作成されるレイアウトの参照として使用される、ユーザー作成のレイアウトです。この比較は、プログラムがfield regionをどの程度正確に検出できているかを評価するために行われます。

(管理者) 正規表現

(管理者) 特殊な言語を使って、単語や入力された任意の値の構造を記述するものです。プログラムでは、使用可能な文字の集合だけでなく、field の内容の構造も指定できます。テキスト field の制約を設定する場合や、カスタムデータ型を作成する場合は、正規表現を使って構造を記述できます。正規表現で使用されるアルファベットを参照してください。

解像度

Image パラメーター。解像度は 1 インチあたりのドット数 (dpi) で表されます。 結果クラス 結果クラスとは、自動分類時にドキュメントに割り当てられたクラスです。

ルールの検証

認識されたデータを事前設定されたルールに照らして自動的にチェックすることです。詳しくは、ルールの検証を参照してください。

ルール

field のデータに対して設定され、プログラムによって自動的にチェックされる特定の条件。(Administrator, Verification) ルールの検証を参照。

S

スキャン

スキャナを使用して、紙のフォームを電子画像として取り込むプロセス。 セグメント 抽出が必要なデータを含む、1つ以上の段落で構成されるテキストフラグメント。セグメントは、抽出が必要なfieldである場合もあります (たとえば、契約終了の条件) 。 セグメンテーション セグメントを特定するプロセス。セグメンテーションは情報抽出に先立って行われ、特に大きな文書では、エンティティの検索対象を特定のテキストフラグメントに絞り込めるため有用です。

セクション

文書内で論理的に区別される部分で、抽出可能な field のセットを含みます。セクションは、ページをまとめて文書を構成するなど、認識プロセス中のさまざまな目的で使用されます。セクションには 1 ページのみを含めることも、複数ページを含めることもでき、fixed または flexible にできます。(管理者) 複数ページ文書用の Document Definitions の作成を参照してください。

半構造化文書

文書ごとに、情報フィールドの構成、数、レイアウトが大きく異なる場合がある文書。ABBYY FlexiCapture で処理できる文書の種類を参照してください。

区切り線

縦線または横線を表す機械可読なフォーム要素です。

サービス field

文書画像上に領域を持たない field。サービス field の値は、そのプロパティで指定された source のデータに基づいて自動的に決定されます。(管理者) サービス fieldを参照してください。

使用可能な文字セット

このセットはデータ型によって決まります。つまり、field にアタッチされたデータの型によって、認識時に使用される文字セットが決まります。このセットに含める文字を選択するだけでなく、このセットをさらに制限する追加のパラメーターを設定することもできます。たとえば、次のように指定できます。
  • 特定の field の認識時に出現しないことが分かっている文字 (禁止文字) 。たとえば、大文字しか出現しない field では、すべての小文字を禁止文字として指定できます。
  • 検証に影響を与えずに単語内に出現する可能性がある文字 (無視文字) 。たとえば、ハイフン、アクセント記号などです。

シンプルテキスト

区切り記号を使わずにブロック内へテキストを挿入する、テキストマーキングの一種です。

単一フローでのデータ入力

紙文書 (印刷物) およびデジタル文書 (スキャン画像) からの自動データ抽出。

単一フローでの文書入力

紙文書を電子化する自動変換。

SLA (サービスレベル契約)

ITサービスの提供に関する取り決め。ABBYY FlexiCapture 12 では、SLA によってバッチの処理期限が定められます。

Static elements

Document Definition のマッチングと識別に使用される、認識対象ではない要素です。こうした要素には、アンカーアンカーテキスト区切り線アンカーバーコードがあります。

サマリーセクション

サマリーセクションは、ドキュメントセット内のドキュメントにある主要なフィールドをすべて表示する Document Definition セクションです。これにより、オペレーターはセット内のドキュメントをはるかに簡単にレビューできるようになります。すべてのエラーと確信度の低いデータを 1 か所で確認できるため、各ドキュメントを 1 つずつ開く代わりに、レビューが必要なドキュメントだけを開けばよくなります。

T

テーブル

必ずしも可視ではない、2 次元のグリッド状に配置されたデータ。プログラムは、同じ型のデータで構成された列と、繰り返される行からなるテーブルを処理します。

テーブル field

テーブルを含むDocument Definitionのfieldです。これは複合fieldであり、テーブルの各列は、テキスト、チェックマーク、バーコード、または画像など、同じ型のfieldのセットを表します。

(Distributed) タスク

(Distributed) 同じバッチに含まれる文書をまとめて処理するためのセットです。プロジェクトの設定や処理ステージに応じて、1つのタスクに含まれる文書数は異なる場合があります。処理ステージでバッチ全体を処理する必要がある場合は、バッチ全体がそのタスクに含まれます。検証タスクが自動的に作成される場合、各タスクには10件の文書が含まれます (バッチ内の未検証の文書が10件未満の場合は、それらすべてが1つのタスクとして処理されます) 。

テナント

他のユーザーの環境とは独立して利用できる、ABBYY FlexiCapture の独立したインスタンスです。

テストバッチ

Document Definition のテストと設定用に設計されたドキュメントバッチです。テストバッチの処理には、ドキュメントバッチのローカルコピーが使用されます。(管理者) ドキュメントバッチを参照してください。

Text field

フォームに記入する際に、テキストを入力するために設計された機械可読のフォーム要素。

Text field のマーキング

Text field を区切る図形要素: frame、comb、line。

テキストのマーキング

テキスト入力用のページ領域のデザイン。(管理者) テキストの書式設定のサンプルについては、Entry field トピックを参照してください。

テキストの向き

ページに対するfield内のテキストの向き。

テキスト認識 (OCR、ICR)

画像をテキストに変換すること。

テキストサンプル

アルファベットのすべての文字のサンプルが含まれたファイル。

学習 [Document Definition]

FCFORINVOICES の機能の 1 つで、特定の種類の請求書からデータを抽出できるように、ユーザーがプログラムを学習させることができます。学習によりデータ抽出の品質が向上し、プログラムの設定時にも請求書の処理中にも実行できます。

学習用バッチ

特定の文書バリアント向けの Document Definition の学習とテストに使用する文書のバッチです。学習用バッチを使って Document Definition を学習させると、FlexiLayout バリアントが作成されます。関連項目: document batchdocument variantFlexiLayout variant

Typewriter

タイプライターで印字された文字を表す、認識可能なテキストの種類です。

U

下線付きのテキスト

ユーザー辞書

ユーザーが作成する補助辞書で、組み込み辞書には含まれていない単語を収録します。組み込み辞書は、ユーザー辞書で補完することで、データ抽出の品質を向上させることができます。通常、ユーザー辞書には、専門用語、略語、会社名などが含まれます。

認識対象外の領域

認識から除外された画像領域です。認識対象外の領域は、field の認識を難しくする説明文や画像を含む領域を除外するために必要です。 (管理者) 認識から領域を除外するを参照してください。

非構造化文書

自由形式で情報が記載された文書です。このような文書の例として、契約書、手紙、注文書、グラフなどがあります。(管理者) 非構造化文書および半構造化文書の Document Definition の作成を参照してください。

V

ベンダー

商品やサービスを販売する法人または個人です。ベンダーは、商品やサービスに対する請求書を発行します。請求書のデータは、FCFORINVOICES を使用して抽出できます。

検証

検証では、データが認識されていること、ページがドキュメントとして正しくまとめられていること、およびルールでエラーが返されていないことを確認します。 (Standalone) 検証は Operator Station で行われます。 (Distributed) 検証は Data Verification Station (認識精度を検証する場所) および Verification Station (あらゆる種類の確認を実行できる場所) で行われます。 (Administrator, Verification) 検証を参照してください。

W

作業バッチ

データ入力用のドキュメントバッチです。作業バッチの処理には、公開済みの Document Definitions のみが使用されます。(管理者) ドキュメントバッチを参照してください。

筆記スタイル

このオプションでは、帳票内の手書き風文字の筆記スタイルを設定します。選択する筆記スタイルは、帳票処理を行う地域 (ロシア、ドイツ、チェコ共和国、USA など) によって異なります。

X

XFD

XML Form Definition (*.xfd) は、ABBYY FormDesigner で設計されたフォーム用の特殊なファイル形式です。XML Form Definition 形式のファイルは、ABBYY FlexiCapture で Document Definitions を作成するために使用されます。