文档分析

基本文档分析功能

文档分析是一组用于自动检测页面上以下对象的功能：

文本块
图片
表格和表格单元格
条码
分隔线

此外，文档分析还提供了一些为 OCR 预处理图像的特殊功能：

检测页面方向——90°、180° 和 270°
拆分跨页图像
检测表格单元格中的竖排文本
检测并标记页面上的杂点区域

这种预处理非常重要，有助于确定页面上哪些字段需要识别，哪些内容应保留原始形式。此外，还可以手动选择要识别的字段。在这种情况下，您必须设置该字段的坐标以及其中的数据类型。这主要用于数据采集场景中的字段级识别。 ABBYY FineReader Engine 12 提供 3 种自动和 1 种手动文档分析类型：

常规文档分析

这是默认的文档分析类型，会搜索所有对象：文本块、图片、表格、条码和分隔线。此分析的结果用于在内容复用场景中提取文档结构和版面信息。所有图片和图表都会保留其原始形式，不会识别其中的文本。

发票文档分析

这是一个用于转换半结构化文档 (如发票、付款凭单、账单、运单、名片、协议、医疗索赔表、简历等) 的预处理引擎。它专为准确定位这些文档中的所有文本而设计，包括字符和数字——即使这些信息位于印章、图片、徽标或小字号文本区域中，也能准确识别。与标准的整页文档分析不同，这种分析假定文档上的所有印刷信息都是文本。它还能确保重要的文本信息不会被识别为图形元素，并且单词或数值不会被拆分成多个字符。因此，可为后续处理阶段中其他系统执行分析、按字段处理和解析提供尽可能完整的文本信息，包括其坐标。

用于全文索引的文档分析

自动检测并识别文档中的所有文本，包括嵌入在图片、图表和示意图中的文本。开发者可以选择使用这种文档分析模式，提取构建文档索引所需的完整全文信息 (例如 DMS、CMS 和归档系统) 。

用于字段级识别的手动指定块

这种情况下无需进行任何分析，因为要识别的字段由用户或应用程序直接定义。Recognizer 接收字段的坐标和文本类型，并在指定区域内执行 OCR。

另请参阅

主要功能

概述

主要新功能

基本文档分析功能

常规文档分析

发票文档分析

用于全文索引的文档分析

用于字段级识别的手动指定块

另请参阅

概述

主要新功能

​基本文档分析功能

​常规文档分析

​发票文档分析

​用于全文索引的文档分析

​用于字段级识别的手动指定块

​另请参阅

基本文档分析功能

常规文档分析

发票文档分析

用于全文索引的文档分析

用于字段级识别的手动指定块

另请参阅