跳转到主要内容

概述

ABBYY Vantage 支持通过智能提取功能实现文档处理自动化。本指南重点介绍基于 SFTP 的工作流,允许您将文档上传到共享文件夹,并自动获取处理后的结果。 您将完成以下任务:
  • 创建并配置一个流程技能
  • 为输入和输出设置 SFTP 访问
  • 通过命令行上传文档
  • 下载提取结果
预计耗时: 15–20 分钟

步骤 1:创建流程技能

在 Vantage 中,流程技能是构建文档处理工作流的基础。
  1. 在 ABBYY Vantage 中导航到 文档 部分。
  2. 点击左侧边栏中的 Skill Designer
  3. 在技能类型中选择 Process Skill
选择流程技能
  1. Create Process skill 对话框中输入:
    • Skill Name: 为流程输入一个描述性名称(例如,“Process Skill Test 1”)
    • Description: 此技能用途的可选说明
    • Technology Core Version: 3.0(推荐)
命名流程技能
  1. 点击 Create

步骤 2:配置流程技能工作流

创建技能后,接下来配置文档处理流程。
  1. 在 Skill Designer 中,你会在右侧看到 Select Process Skill(选择流程技能)面板
  2. 选择 Simple Document skill workflow(简单文档技能工作流),用于处理单一文档类型
Selecting Simple Workflow 这将创建一个预配置的工作流,包括:
  • Input 连接器:文档进入系统的入口
  • OCR 技能:Optical Character Recognition(OCR,光学字符识别)
  • Extract 技能:数据提取
  • Output 连接器:结果输出的出口
该工作流会显示在中央画布上,如:Input → OCR → Extract → Output

步骤 3:通过 SFTP 设置输入

配置 Input 活动以通过 SFTP 接收文档。
  1. 在工作流中单击 Input 活动。
  2. 在右侧的 Actions 面板中,选中 Select additional source.
  3. 选择 Shared folder 单选按钮。
  4. 单击 Settings 进行配置。
Configuring Input Activity

配置输入设置

Input Settings: Shared Folder 对话框中: Input Settings Dialog 文件夹设置:
  • Folder name: Input(默认)
  • Import method: Single file
导入凭据(供您使用):
  • Folder link: .../Input
  • Exceptions folder link: .../Input-exception
  • Username: 生成的 UUID(例如 685df03c-9e22-41cb-a96f-4c408ab52735
  • Password: 可通过“显示/隐藏”选项查看
注意: 请复制这些凭据——在通过 SFTP 连接时需要用到它们。无法导入的文件将被移动到异常文件夹中。Vantage 在发布该技能后,每 20 秒检查一次是否有新文件。
  1. 单击 Save.

步骤 4:通过 SFTP 设置输出

配置 Output 活动,通过 SFTP 输出结果。
  1. 单击工作流中的 Output 活动。
  2. Actions 面板中,选中 Select additional destination.
  3. 选择 Shared folder 单选按钮。
  4. 单击 Settings 进行配置。
配置 Output 活动

配置输出设置

Output Settings: Shared Folder(输出设置:共享文件夹)对话框中: Output Settings Dialog 信息:
  • Folder name: Output(默认)
  • Folder: .../Output
  • Username: 自动生成的 UUID(例如 685df03c-9e22-41cb-a96f-4c408ab52735
  • Password: 可通过“显示/隐藏”选项查看
导出数据:
  • Fields (JSON): 默认导出格式
注意: 结果会被组织到以源文件名和事务 ID 命名的子文件夹中(例如 invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82)。文件会根据数据保留策略自动删除。
  1. 单击 Save.

步骤 5:配置提取技能

设置 Extract 活动应识别和处理的文档类型。
  1. 在工作流中单击 Extract 活动。
  2. Actions 面板中,可以看到 Document Skills
Configuring Extraction Skills 可用的文档技能包括:
  • Invoice
  • Invoice AU-NZ
  • Invoice CA
  • Invoice ES
  • Invoice UA
  • Invoice US
  1. 选择与当前业务场景相关的文档类型。
  2. 如需更多文档类型,单击 Add Skill
  3. 通过 Edit Mapping 在需要时自定义字段提取。

步骤 6:发布并获取技能 ID

在使用 SFTP 之前,您需要先发布该技能并获取其 ID。
  1. 点击 Skill Designer 界面右上角的 Publish 按钮。
  2. 发布完成后,在浏览器地址栏的 URL 中查看并记录 Skill ID
从 URL 获取 Skill ID URL 格式如下:
https://vantage-preview.abbyy.com/skill-editor/Processing/{skill-id}
例如:fc7116ea-ab6c-40fa-b10d-1aef61aaaa2c 警告: 请妥善保存您的 Skill ID;在通过 SFTP 访问正确的 Input 和 Output 文件夹时将会用到。

步骤 7:连接到 SFTP

现在,您已准备好使用 Input/Output 设置中的凭据,通过 SFTP 进行连接。

连接详细信息

在 Input/Output 设置中,您可以看到:
  • Server: 172.172.228.138
  • Port: 2022
  • Username: 系统生成的 UUID
  • Password: 系统生成的密码
  • Base Path: /{skill-id}/

通过终端连接

打开终端并执行以下命令进行连接:
sftp -P 2022 {username}@172.172.228.138
示例:
sftp -P 2022 8d1bf446-3abb-4ddb-a8a8-ed87fac7f171@172.172.228.138
注意: 在 SFTP 中为端口号使用大写 -P(小写 -p 用于其他用途)。 根据提示输入密码。

步骤 8:导航 SFTP 文件夹结构

连接成功后,您会看到 SFTP 提示符:sftp>

查看可用技能

列出所有可用的流程技能:
sftp> ls
访问技能文件夹 您将看到每个技能的文件夹(通过其技能 ID 标识),以及:
  • Catalogs - 文档技能目录
  • Catalogs-exception - 失败的目录导入
  • skills-import - 技能导入目录
使用第 6 步获取的技能 ID:
sftp> cd {your-skill-id}
sftp> ls
你将看到三个文件夹:
  • Input - 在此上传要处理的文档
  • Input-exception - 导入失败的文档会被移到这里
  • Output - 处理完成的结果会出现在这里

步骤 9:上传待处理文档

进入 Input 文件夹并上传文档。
sftp> cd Input
sftp> pwd
Remote working directory: /{skill-id}/Input

上传单个文件

通过完整路径上传文件:
sftp> put ~/Documents/Sample\ Files/Demo\ Docs/invoice_1.jpg
或者先切换到您的本地目录:
sftp> lcd ~/Documents/Sample\ Files/Demo\ Docs
sftp> lls
sftp> put invoice_1.jpg
上传与下载文件

上传多个文档

sftp> mput *.jpg
sftp> mput invoice_*.pdf
注意: 上传到 Input 的文件在成功处理后会自动删除(通常在 20 秒内)。如果在上传后没有看到您的文件,表示 Vantage 已经开始处理该文件了!

验证上传情况

检查这些文件是否仍位于 Input 文件夹中:
sftp> ls
如果文件夹为空或找不到您的文件,这表示处理已开始。

步骤 10:检查处理状态

监控 Input-exception 文件夹

如果文件导入失败,它会出现在此处:
sftp> cd ..
sftp> cd Input-exception
sftp> ls
空文件夹说明所有文件都已成功导入。

等待处理

处理时间取决于以下因素:
  • 文档的复杂性
  • 已配置的提取技能
  • 当前系统负载
通常,简单发票会在 30–60 秒内完成处理。

步骤 11:下载已处理的结果

处理完成后,结果会出现在 Output 文件夹中。
sftp> cd ..
sftp> cd Output
sftp> ls

了解输出结构

处理结果会按照以下命名模式存放在子文件夹中:
{original-filename}-{transaction-id}
示例:
invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

查看结果文件夹的内容

sftp> cd invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82
sftp> ls
典型内容:
  • Invoice_US.json - 以 JSON 格式提取的数据
  • Invoice_US.csv - 以 CSV 格式提取的数据(如果已配置)
  • 根据输出设置生成的其他文件

下载结果

设置本地下载目录:
sftp> lcd ~/Downloads
sftp> lpwd
Local working directory: /Users/yourname/Downloads
下载单个文件:
sftp> get Invoice_US.json
下载此文件夹中的所有文件:
sftp> mget *
以递归方式下载整个结果文件夹:
sftp> cd ..
sftp> get -r invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

了解 JSON 输出

默认输出为一个 JSON 文件,其中包含:
  • 文档结构 - 布局和组织方式
  • 提取的字段值 - 从文档中提取的数据
  • 置信度评分 - 每个提取结果的可靠性
  • 规则错误 - 任何验证问题
  • 字段元数据 - 关于每个字段的附加信息
示例结构:
{
  "Document": {
    "DocumentType": "Invoice US",
    "Fields": [
      {
        "Name": "InvoiceNumber",
        "Value": "INV-12345",
        "Confidence": 0.98
      },
      {
        "Name": "Total",
        "Value": "1250.00",
        "Confidence": 0.95
      }
    ]
  }
}
有关 JSON 架构的详细说明,请参阅 ABBYY Vantage API 文档。

常用 SFTP 命令

CommandDescriptionExample
ls列出远程文件ls
lls列出本地文件lls
pwd显示当前远程目录pwd
lpwd显示当前本地目录lpwd
cd folder切换到远程目录cd Output
lcd folder切换到本地目录lcd ~/Downloads
put file上传单个文件put invoice.pdf
mput files上传多个文件mput *.jpg
get file下载单个文件get result.json
mget files下载多个文件mget *
get -r folder递归下载目录get -r results/
exit退出 SFTP 会话exit

疑难解答

连接问题

问题: 出现 “Connection refused”(连接被拒绝)或超时错误 解决方案:
  • 确认您已连接到公司 VPN
  • 检查端口号(应为 2022,并使用大写参数 -P
  • 核实您的用户名和密码是否正确
  • 测试基本网络连通性:ping 172.172.228.138

上传问题

问题: 文件未被处理 解决方案:
  • 检查 Input-exception 文件夹中是否有导入失败的文件
  • 确认文件格式受支持(PDF、JPG、PNG、TIFF 等)
  • 确保流程技能已发布
  • 检查文件大小限制(因配置而异)

没有输出文件

问题: 上传后输出文件夹为空 解决方案:
  • 再等一会儿——处理可能需要 30–60 秒甚至更长时间
  • 确认已将 Output 配置为“Shared folder”(共享文件夹)目标
  • 在 Vantage Web 界面中检查事务日志
  • 确认 Extract 活动已配置了适当的文档技能

权限错误

问题: 在上传/下载时出现 “Permission denied” 解决方案:
  • 确认针对输入和输出使用了正确的凭据
  • 输入凭据允许:上传、删除
  • 输出凭据允许:查看、下载、重命名、删除
  • 检查该技能是否已发布并处于激活状态

最佳实践

安全性

  • 切勿以明文形式共享 SFTP 凭据
  • 使用安全通道传输密码
  • 定期更换凭据
  • 将 SFTP 访问权限限制为仅必需的人员

文件管理

  • 使用包含日期或 ID 的描述性文件名
  • 如有可能,在非高峰时段批量处理文件
  • 及时下载并归档结果
  • 定期清理旧的结果文件夹

监控

  • 定期检查 Input-exception 文件夹中的导入失败记录
  • 监控处理时间以识别瓶颈
  • 查看结果中的数据提取置信度评分
  • 为严重故障设置警报(如可用)

工作流优化

  • 将相似的文档类型归类在一起
  • 为您的用例配置合适的文档技能
  • 在投入生产环境前先使用示例文档进行测试
  • 将您的 SFTP 工作流加以记录,供团队参考

下一步

现在你已经拥有一个基于 SFTP 的文档处理流水线:
  1. 使用各种文档进行测试 - 上传不同的文件类型和文档变体
  2. 检查提取结果的准确性 - 查看 JSON 结果和置信度评分
  3. 自定义提取 - 使用 Edit Mapping 微调字段提取
  4. 自动化上传 - 创建脚本以自动上传文件
  5. 与系统集成 - 通过 Vantage REST API 连接应用程序
  6. 扩展工作流 - 添加更多文档技能或创建额外的流程技能
如需高级配置、API 集成或自定义工作流,请参阅 ABBYY Vantage 文档

其他资源

  • REST API Documentation: 用于通过编程方式上传文件并获取处理结果
  • 技能目录: 浏览预构建的文档技能
  • 支持: 联系 ABBYY 支持团队以获取技术协助

总结

您已经成功完成了以下操作:
  • ✅ 在 ABBYY Vantage 中创建了一个流程技能
  • ✅ 配置了用于输入和输出的 SFTP 访问
  • ✅ 设置了文档提取技能
  • ✅ 通过 SFTP 命令行方式完成了连接
  • ✅ 上传了要处理的文档
  • ✅ 下载了提取结果
您的文档处理流程现已开始运行,并已准备好用于生产环境!