跳转到主要内容
文档分析是一组用于自动检测页面上以下对象的功能:
此外,文档分析还提供了一些为 OCR 预处理图像的特殊功能:
- 检测页面方向——90°、180° 和 270°
- 拆分跨页图像
- 检测表格单元格中的竖排文本
- 检测并标记页面上的杂点区域
这种预处理非常重要,有助于确定页面上哪些字段需要识别,哪些内容应保留原始形式。
此外,还可以手动选择要识别的字段。在这种情况下,您必须设置该字段的坐标以及其中的数据类型。这主要用于数据采集场景中的 字段级识别。
ABBYY FineReader Engine 12 提供 3 种自动和 1 种手动文档分析类型:
这是默认的文档分析类型,会搜索所有对象:文本块、图片、表格、条码和分隔线。此分析的结果用于在内容复用场景中提取文档结构和版面信息。所有图片和图表都会保留其原始形式,不会识别其中的文本。
这是一个用于转换半结构化文档 (如发票、付款凭单、账单、运单、名片、协议、医疗索赔表、简历等) 的预处理引擎。它专为准确定位这些文档中的所有文本而设计,包括字符和数字——即使这些信息位于印章、图片、徽标或小字号文本区域中,也能准确识别。
与标准的整页文档分析不同,这种分析假定文档上的所有印刷信息都是文本。它还能确保重要的文本信息不会被识别为图形元素,并且单词或数值不会被拆分成多个字符。因此,可为后续处理阶段中其他系统执行分析、按字段处理和解析提供尽可能完整的文本信息,包括其坐标。
自动检测并识别文档中的所有文本,包括嵌入在图片、图表和示意图中的文本。开发者可以选择使用这种文档分析模式,提取构建文档索引所需的完整全文信息 (例如 DMS、CMS 和归档系统) 。
这种情况下无需进行任何分析,因为要识别的字段由用户或应用程序直接定义。Recognizer 接收字段的坐标和文本类型,并在指定区域内执行 OCR。
主要功能