メインコンテンツへスキップ
文書には、手書きまたは印字装置で記入されるフィールドが含まれます。文書は1ページ以上で構成される場合があります。 文書は、「固定」文書と「半構造化」文書に分けられます。「固定」文書の場合、同一のフィールドは、バッチ内のすべての文書でまったく同じ位置にあります。固定文書は、データフィールドから情報を読み取り、それをデータベース、文書管理システム、またはアーカイブアプリケーションにエクスポートする文書処理アプリケーションで処理できます。このような文書のデータキャプチャには、フィールドの位置と、そこに含まれ得る情報の種類を記述するDocument Definitionが使用されます。同一のDocument Definitionが、特定のバッチ内のすべての文書からデータを取得するために使用されます。これにより、文書処理アプリケーションは、文書上の特定のデータをどこで探すか、また、そのデータが正しく取得されたことをどのように確認するかを判断できます。 「半構造化」文書の場合、同一のデータフィールドの位置は文書ごとに異なります。さらに、バッチ内のすべての文書にすべてのフィールドが存在するとは限りません (たとえば、署名フィールドを含む文書もあれば、含まない文書もあります) 。半構造化文書の代表的な例として、各種支払文書があります。 書簡、登録フォーム、法的文書も、半構造化文書の好例です。同じ種類の文書であれば構造は似ていますが、それでもフィールドに違いがある場合があります。たとえば、書簡にはページ上部に送信者の氏名と住所が記載され、法的文書には当事者名やその詳細、発効日などが記載されます。 半構造化文書上のフィールドの正確な位置は事前にはわからないため、このような文書からはDocument Definitionを使用してデータを取得できません。これは、従来のデータキャプチャシステムでは、このような文書からデータを抽出できないことを意味します。 ABBYY FlexiLayout Studioを使用すると、非構造化文書を形式的に記述し、検索アルゴリズムをプログラムに与えることで、データフィールドを見つけてそれらのフィールドから情報を抽出できるようになります。形式的な記述は、非構造化文書上のフィールド相互の関係と、フィールド内のデータの性質に基づいています。作成した記述は文書画像でテストでき、情報を確実に抽出できることを確認できます。 ABBYY FlexiLayout Studioで作成された形式化記述は、FlexiLayoutsと呼ばれます。FlexiLayoutを使用して非構造化文書からデータ取得を開始するには、それをABBYY FlexiCaptureのようなデータキャプチャアプリケーションにエクスポートする必要があります。ABBYY FlexiCaptureテクノロジーは幅広いデータキャプチャ機能を備えており、実質的にあらゆる種類の文書を処理できます。