跳转到主要内容
要从文档中提取数据,请创建一个 Document skill。 所使用的场景和技术(作为可用活动提供)在很大程度上取决于你要处理的文档结构。一般而言,文档可分为以下类型:

文档类型

结构化文档

结构化文档(也称固定表单)始终包含相同的信息,且具有相同或数量极少的布局。结构化文档的示例包括表单、问卷和调查。 结构化文档示例

半结构化文档

半结构化文档通常包含相同的信息,但field的位置、大小和数量可能因文档而异,这使得数据提取更具挑战。Vantage 将依赖某些元素与field之间的空间与逻辑关系来定位并提取所需数据。半结构化文档的示例包括发票、付款指令和提单。 半结构化文档示例 如果你的文档集由结构化或半结构化文档组成,请查看处理结构化文档处理半结构化文档部分的相关场景。

非结构化文档

非结构化文档由自由形式的文本构成,按段落和句子划分,包含需要提取的数据。在某些非结构化文档中,某个field可能会跨至下一页。非结构化文档的示例包括合同、电子邮件和研究论文。 Sample Unstructured Document 如果你的文档集由非结构化文档组成,请查看处理非结构化文档部分中的相关场景。

混合文档集

如果你的文档集中既有半结构化文档也有非结构化文档,或单个文档同时包含半结构化与非结构化内容(例如纯文本段落与表格交替出现),请参阅处理混合文档集和混合结构文档部分中的相关场景。