跳转到主要内容

概览

ABBYY Vantage 通过智能数据提取功能实现文档处理自动化。本文档重点介绍基于 SFTP 的工作流,通过该工作流,你可以将文档上传到共享文件夹,并自动获取处理完成的结果。 你将完成以下任务:
  • 创建并配置一个 Process Skill
  • 为输入和输出配置 SFTP 访问
  • 通过命令行上传文档
  • 下载提取结果
预计完成时间: 15–20 分钟

步骤 1:创建一个 Process 技能

Process 技能是您在 Vantage 中构建文档处理流程的基础。
  1. 在 ABBYY Vantage 中转到 Documents 部分。
  2. 点击左侧边栏中的 Skill Designer
  3. 在技能类型中选择 Process Skill
Selecting Process Skill
  1. Create Process skill 对话框中,输入:
    • Skill Name: 为您的流程输入一个具有描述性的名称(例如:“Process Skill Test 1”)
    • Description: 可选,用于说明该 Skill 的功能
    • Technology Core Version: 3.0(推荐)
Naming Process Skill
  1. 点击 Create

步骤 2:配置 Process Skill 工作流

创建 Skill 之后,您将设置文档处理流程。
  1. 在 Skill Designer 中,您会在右侧看到 Select Process Skill 面板
  2. 选择 Simple Document skill workflow 来处理单一文档类型
Selecting Simple Workflow 这将创建一个预配置的工作流,其中包括:
  • Input 连接器:文档进入系统的入口
  • OCR Skill:Optical Character Recognition(OCR)
  • Extract Skill:数据提取
  • Output 连接器:结果输出的出口
该工作流会显示在中央画布中,如:Input → OCR → Extract → Output

步骤 3:通过 SFTP 设置输入

配置 Input 活动以通过 SFTP 接收文档。
  1. 在工作流中单击 Input 活动。
  2. 在右侧的 Actions 面板中,选中 Select additional source.
  3. 选择 Shared folder 单选按钮。
  4. 单击 Settings 进行配置。
Configuring Input Activity

配置输入设置

Input Settings: Shared Folder(输入设置:共享文件夹)对话框中: Input Settings Dialog 文件夹设置:
  • Folder name: Input(默认)
  • Import method: Single file(单个文件)
导入凭据(供你使用):
  • Folder link: .../Input
  • Exceptions folder link: .../Input-exception
  • Username: 生成的 UUID(例如:685df03c-9e22-41cb-a96f-4c408ab52735
  • Password: 通过“显示/隐藏”选项查看
注意: 请复制这些凭据,你需要使用它们通过 SFTP 进行连接。无法导入的文件将被移动到 Exceptions 文件夹。发布 Skill 后,Vantage 每隔 20 秒检查一次文件。
  1. 单击 Save.

步骤 4:通过 SFTP 设置输出

配置 Output 活动,使其通过 SFTP 传送结果。
  1. 在工作流中单击 Output 活动。
  2. Actions 面板中,选中 Select additional destination.
  3. 选择 Shared folder 单选按钮。
  4. 单击 Settings 进行配置。
Configuring Output Activity

配置输出设置

Output Settings: Shared Folder(输出设置:共享文件夹)对话框中: Output Settings Dialog 信息:
  • Folder name: Output(默认)
  • Folder: .../Output
  • Username: 系统生成的 UUID(例如:685df03c-9e22-41cb-a96f-4c408ab52735
  • Password: 以可显示/隐藏的方式呈现
导出数据:
  • Fields (JSON): 默认导出格式
注意: 结果会根据源文件名和处理事务 ID 分别归类到对应的子文件夹中(例如:invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82)。文件会根据数据保留策略自动删除。
  1. 点击 Save

Step 5:配置提取 Skills

设置 Extract 活动应识别和处理的文档类型。
  1. 在流程中单击 Extract 活动。
  2. Actions 面板中,可以看到 Document Skills
Configuring Extraction Skills 可用的 Document Skill 包括:
  • Invoice
  • Invoice AU-NZ
  • Invoice CA
  • Invoice ES
  • Invoice UA
  • Invoice US
  1. 选择与用例相关的文档类型。
  2. 如需其他文档类型,单击 Add Skill
  3. 如有需要,使用 Edit Mapping 自定义字段提取。

步骤 6:发布并获取 Skill ID

在使用 SFTP 之前,你需要先发布该 Skill 并找到它的 ID。
  1. 点击 Skill Designer 右上角的 Publish 按钮。
  2. 发布完成后,从浏览器 URL 中记下 Skill ID
从 URL 获取 Skill ID URL 的格式为:
https://vantage-preview.abbyy.com/skill-editor/Processing/{skill-id}
例如:fc7116ea-ab6c-40fa-b10d-1aef61aaaa2c 警告: 请妥善保管您的 Skill ID——您需要它来访问 SFTP 中对应的 Input 和 Output 文件夹。

步骤 7:连接到 SFTP

现在,您可以使用 Input/Output 设置中的凭据,通过 SFTP 建立连接。

连接信息

在您的 Input/Output 设置中,您可以看到:
  • Server: 172.172.228.138
  • Port: 2022
  • Username: 系统为您生成的 UUID
  • Password: 系统为您生成的密码
  • Base Path: /{skill-id}/

通过终端连接

打开终端,在其中运行以下命令进行连接:
sftp -P 2022 {username}@172.172.228.138
示例:
sftp -P 2022 [email protected]
注意: 在 SFTP 中使用大写的 -P 指定端口号(小写的 -p 用于其他用途)。 出现提示时,请输入您的密码。

步骤 8:浏览 SFTP 目录结构

连接成功后,您会看到 SFTP 提示符:sftp>

查看可用的 Skill

列出所有可用的 Process 技能:
sftp> ls
访问 Skill 文件夹 您将看到每个 Skill 的文件夹(通过其 Skill ID 标识),以及:
  • Catalogs - Document skill 目录
  • Catalogs-exception - 导入失败的目录
  • skills-import - Skill 导入目录
使用第 6 步获取的 Skill ID:
sftp> cd {your-skill-id}
sftp> ls
你将看到三个文件夹:
  • Input - 在此上传待处理的文档
  • Input-exception - 导入失败的文件会被移到这里
  • Output - 处理完成的结果会出现在这里

步骤 9:上传文档进行处理

进入 Input 文件夹并上传您的文档。
sftp> cd Input
sftp> pwd
Remote working directory: /{skill-id}/Input

上传单个文件

通过完整路径上传文件:
sftp> put ~/Documents/Sample\ Files/Demo\ Docs/invoice_1.jpg
或者先切换到本地目录:
sftp> lcd ~/Documents/Sample\ Files/Demo\ Docs
sftp> lls
sftp> put invoice_1.jpg
上传与下载文件

上传多个文件

sftp> mput *.jpg
sftp> mput invoice_*.pdf
注意: 上传到 Input 的文件在成功处理后会被自动删除(通常在 20 秒内)。如果在上传后看不到您的文件,说明 Vantage 已经取走并开始处理了!

确认上传

检查文件是否仍在 Input 文件夹中:
sftp> ls
如果文件夹为空或找不到您的文件,则表示处理已开始。

第 10 步:检查处理状态

监控 Input-exception 文件夹

如果有文件导入失败,它会出现在这里:
sftp> cd ..
sftp> cd Input-exception
sftp> ls
空文件夹表示所有文件都已成功导入。

等待处理完成

处理时间取决于以下因素:
  • 文档复杂度
  • 已配置的提取 Skill
  • 当前系统负载
通常,简单的发票会在 30–60 秒内处理完成。

步骤 11:下载处理结果

处理完成后,处理结果会出现在 Output 文件夹中。
sftp> cd ..
sftp> cd Output
sftp> ls

理解输出结构

结果按以下命名模式存放在子文件夹中:
{original-filename}-{transaction-id}
示例:
invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

查看结果文件夹中的内容

sftp> cd invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82
sftp> ls
Typical contents:
  • Invoice_US.json - 以 JSON 格式提取的数据
  • Invoice_US.csv - 以 CSV 格式提取的数据(如果已配置)
  • 根据输出设置生成的其他文件

下载结果

设置本地下载目录:
sftp> lcd ~/Downloads
sftp> lpwd
Local working directory: /Users/yourname/Downloads
下载单个文件:
sftp> get Invoice_US.json
下载该文件夹中的所有文件:
sftp> mget *
递归下载整个结果文件夹:
sftp> cd ..
sftp> get -r invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

了解 JSON 输出

默认输出为一个 JSON 文件,其中包含:
  • 文档结构 - 布局和组织方式
  • 提取的 field 值 - 从文档中提取的数据
  • 置信度评分 - 每个提取结果的可靠性
  • 规则错误 - 任何验证问题
  • field 元数据 - 关于每个 field 的附加信息
示例结构:
{
  "Document": {
    "DocumentType": "美国发票",
    "Fields": [
      {
        "Name": "InvoiceNumber",
        "Value": "INV-12345",
        "Confidence": 0.98
      },
      {
        "Name": "Total",
        "Value": "1250.00",
        "Confidence": 0.95
      }
    ]
  }
}
有关 JSON 架构的详细说明,请参阅 ABBYY Vantage API 文档。

常用 SFTP 命令

CommandDescriptionExample
ls列出远程文件ls
lls列出本地文件lls
pwd显示远程目录pwd
lpwd显示本地目录lpwd
cd folder切换远程目录cd Output
lcd folder切换本地目录lcd ~/Downloads
put file上传单个文件put invoice.pdf
mput files上传多个文件mput *.jpg
get file下载单个文件get result.json
mget files下载多个文件mget *
get -r folder递归下载目录get -r results/
exit断开连接exit

故障排除

连接问题

问题: 出现 “Connection refused” 或超时错误 解决方案:
  • 确认您已连接到公司的 VPN
  • 检查端口号(应为 2022,并使用大写参数 -P
  • 确认用户名和密码正确
  • 测试基本网络连通性:ping 172.172.228.138

上传问题

问题: 文件未处理 解决方案:
  • 检查 Input-exception 文件夹中是否有导入失败的文件
  • 确认文件格式受支持(PDF、JPG、PNG、TIFF 等)
  • 确保 Process Skill 已发布
  • 检查文件大小限制(根据配置有所不同)

无输出文件

问题: 上传后输出文件夹为空 解决方案:
  • 再等待一段时间——处理可能需要 30–60 秒或更长
  • 核实 Output 已配置为“Shared folder”目标
  • 在 Vantage web 界面中检查处理事务日志
  • 确认在 Extract 活动中配置了合适的 Document Skill

权限错误

问题: 上传/下载时出现 “Permission denied” 错误 解决方案:
  • 确认你针对 Input 和 Output 使用了正确的凭据
  • Input 凭据权限:上传、删除
  • Output 凭据权限:查看、下载、重命名、删除
  • 检查该 Skill 是否已发布并处于启用状态

最佳实践

安全

  • 切勿以明文形式共享 SFTP 凭证
  • 使用安全通道传输密码
  • 定期更换凭证
  • 将 SFTP 访问权限仅授予必要的人员

文件管理

  • 使用带有日期或 ID 的描述性文件名
  • 如有可能,在非高峰时段批量处理文件
  • 及时下载并归档处理结果
  • 定期清理历史结果文件夹

监控

  • 定期检查 Input-exception 文件夹中的导入失败记录
  • 监控处理时间以识别瓶颈
  • 在结果中查看提取置信度分数
  • 为严重故障(如果可用)设置警报

工作流优化

  • 将相似的文档类型归类在一起
  • 为您的用例配置合适的 Document Skill
  • 在投入生产前使用样本文档进行测试
  • 将您的 SFTP 工作流文档化,供团队参考

下一步

现在你已经拥有一个可用的基于 SFTP 的文档处理流程:
  1. 使用各种文档进行测试 - 上传不同的文件类型和文档版本
  2. 检查提取准确性 - 查看 JSON 结果和置信度分数
  3. 自定义提取 - 使用 Edit Mapping 微调 field 提取
  4. 自动化上传 - 创建脚本来自动上传文件
  5. 与系统集成 - 通过 Vantage REST API 连接你的应用程序
  6. 扩展你的工作流 - 添加更多 Document skill 或创建其他 Process 技能
有关高级配置、API 集成或自定义工作流,请参阅 ABBYY Vantage 文档

其他资源

  • REST API Documentation: 用于以编程方式上传文件并获取处理结果
  • Skill Catalog: 浏览预构建的 Document skill
  • Support: 如需技术支持,请联系 ABBYY 支持团队

总结

您已成功完成以下操作:
  • ✅ 在 ABBYY Vantage 中创建了一个 Process 技能
  • ✅ 为输入和输出配置了 SFTP 访问
  • ✅ 配置了文档提取 Skill
  • ✅ 通过 SFTP 命令行完成连接
  • ✅ 上传了待处理文档
  • ✅ 下载了提取结果
您的文档处理流水线现已投入运行,可用于生产环境!