跳转到主要内容
要从文档中提取数据,请创建一个文档技能。 所涉及的场景和技术(以活动形式提供)在很大程度上取决于你所要处理的文档结构。通常情况下,文档可以分为以下几种类型:

文档类型

结构化文档

结构化文档(也称为固定表单)始终包含相同的信息,并且具有相同的布局,或仅有极少数几种不同的布局。结构化文档的示例包括表单、问卷和调查。 结构化文档示例

半结构化文档

半结构化文档 通常包含相同的信息,但字段的位置、大小和数量可能会因文档而异,这会增加数据提取的难度。Vantage 将依赖某些元素和字段之间的空间和逻辑关系来定位并提取所需数据。半结构化文档的示例包括发票、付款指令以及提单。 半结构化文档示例 如果您的文档集由结构化或半结构化文档组成,请参阅处理结构化文档处理半结构化文档章节中的相关场景。

非结构化文档

非结构化文档 由自由格式文本构成,这些文本被划分为段落和句子,其中包含需要提取的数据。在某些非结构化文档中,一个字段可能会溢出到下一页。非结构化文档的示例包括合同、电子邮件和研究文章。 Sample Unstructured Document 如果您的文档集由非结构化文档组成,请参阅处理非结构化文档部分中的相关场景。

混合文档集

如果文档集中同时包含半结构化和非结构化文档,或者单个文档中既包含半结构化内容又包含非结构化内容(例如纯文本段落与表格交替出现),请参阅处理混合文档集和混合结构文档一节中的相关场景。