- 構造化文書には、設計、数、配置が文書ごとに変わらない、明確に定義されたデータ field のセットが含まれます。構造化文書の例としては、フォーム、質問票、申請書があります。
- 半構造化文書には、設計、数、配置が文書ごとに大きく異なる可能性があるデータ field のセットが含まれます。これらは「柔軟な文書」と呼ばれることもあります。半構造化文書の一例として請求書があり、明細の数や書式は発行会社によって異なることがよくあります。
- 非構造化文書には、まったく構造化されていない情報が含まれます。また、明示的なデータ field も含まれません。非構造化文書の例としては、契約書、書簡、注文書があります。
Using NLP to process unstructured documents
NLP を使用した非構造化文書の処理
ABBYY FlexiCapture の NLP モデルを使用して、契約書や書簡などの非構造化文書からデータを抽出します。必要に応じてセグメンテーションを使用することで、解析を高速化できます。
自然言語処理 (NLP) は、人工知能と言語計算言語学の一分野です。NLP は、自然言語をコンピューターで解析および生成する技術を扱います。NLP の実用的な用途の 1 つは、テキストから意味のあるデータを抽出することです。
文書の処理方法は、その構造によって異なります。ここでは、文書を構造化文書、半構造化文書、非構造化文書の 3 種類に分類できます。
