跳转到主要内容

概览

ABBYY Vantage 支持基于智能提取的自动化文档处理。本指南重点介绍基于 SFTP 的工作流程,你可以将文档上传到共享文件夹,并自动获取处理完成的结果。 你将完成以下任务:
  • 创建并配置一个 Process 技能
  • 为输入和输出设置 SFTP 访问
  • 通过命令行上传文档
  • 下载提取结果
**预计完成时间:**15–20 分钟

步骤 1:创建一个 Process 技能

Process 技能是您在 Vantage 中构建文档处理工作流的基础。
  1. 在 ABBYY Vantage 中进入 Documents 部分。
  2. 点击左侧边栏中的 Skill Designer
  3. 在技能类型中选择 Process Skill
Selecting Process Skill
  1. Create Process skill 对话框中输入:
    • Skill Name: 为您的流程输入一个描述性名称(例如:“Process Skill Test 1”)
    • Description: 可选,对此 Skill 的功能进行说明
    • Technology Core Version: 3.0(推荐)
Naming Process Skill
  1. 点击 Create

步骤 2:配置 Process Skill 工作流

创建 Skill 之后,您将设置文档处理流程。
  1. 在 Skill Designer 中,您会在右侧看到 Select Process Skill 面板
  2. 选择 Simple Document skill workflow 来处理单一文档类型
Selecting Simple Workflow 这将创建一个预配置的工作流,其中包括:
  • Input 连接器:文档进入系统的入口
  • OCR Skill:光学字符识别(Optical Character Recognition, OCR)
  • Extract Skill:数据提取
  • Output 连接器:结果输出的出口
该工作流会显示在中央画布上,如:Input → OCR → Extract → Output

步骤 3:通过 SFTP 设置输入

配置 Input 活动以通过 SFTP 接收文档。
  1. 在工作流中单击 Input 活动。
  2. 在右侧的 Actions 面板中,选中 Select additional source 复选框。
  3. 选择 Shared folder 单选按钮。
  4. 单击 Settings 进行配置。
Configuring Input Activity

配置输入设置

Input Settings: Shared Folder(输入设置:共享文件夹)对话框中: Input Settings Dialog 文件夹设置:
  • Folder name: Input(默认)
  • Import method: Single file
导入凭据(供你使用):
  • Folder link: .../Input
  • Exceptions folder link: .../Input-exception
  • Username: 生成的 UUID(例如 685df03c-9e22-41cb-a96f-4c408ab52735
  • Password: 可通过显示/隐藏选项查看
注意: 复制这些凭据,你需要使用它们通过 SFTP 进行连接。无法导入的文件将被移动到 exceptions 文件夹。发布 Skill 后,Vantage 每 20 秒检查一次文件。
  1. 单击 Save.

步骤 4:通过 SFTP 设置输出

配置 Output 活动,通过 SFTP 传输结果。
  1. 在工作流中单击 Output 活动。
  2. Actions 面板中,勾选 Select additional destination.
  3. 选择 Shared folder 单选按钮。
  4. 单击 Settings 进行配置。
配置 Output 活动

配置输出设置

Output Settings: Shared Folder(输出设置:共享文件夹)对话框中: Output Settings Dialog 信息:
  • 文件夹名称: Output(默认)
  • 文件夹: .../Output
  • 用户名: 生成的 UUID(例如:685df03c-9e22-41cb-a96f-4c408ab52735
  • 密码: 可通过“显示/隐藏”选项查看
导出数据:
  • Fields (JSON): 默认导出格式
注意: 结果会存放在以源文件名和处理事务 ID 命名的子文件夹中(例如:invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82)。文件会根据数据保留策略自动删除。
  1. 单击 Save.

步骤 5:配置提取 Skill

设置 Extract 活动需要识别和处理的文档类型。
  1. 在工作流中单击 Extract 活动。
  2. Actions 面板中,将看到 Document Skills
Configuring Extraction Skills 可用的 Document skill 包括:
  • Invoice
  • Invoice AU-NZ
  • Invoice CA
  • Invoice ES
  • Invoice UA
  • Invoice US
  1. 选择与业务场景相关的文档类型。
  2. 如需添加其他文档类型,单击 Add Skill
  3. 如有需要,使用 Edit Mapping 自定义 field 提取。

步骤 6:发布并获取 Skill ID

在使用 SFTP 之前,你需要先在 Skill Designer 中发布该 Skill,并获取其 ID。
  1. 在 Skill Designer 右上角点击 Publish 按钮。
  2. 发布完成后,从浏览器地址栏中的 URL 中记录下 Skill ID
Getting Skill ID from URL URL 的格式为:
https://vantage-preview.abbyy.com/skill-editor/Processing/{skill-id}
例如:fc7116ea-ab6c-40fa-b10d-1aef61aaaa2c 警告: 请妥善保存 Skill ID——在 SFTP 中访问正确的 Input 和 Output 文件夹时需要用到它。

步骤 7:连接到 SFTP

现在,您可以使用输入/输出设置中的凭据通过 SFTP 进行连接。

连接详细信息

在您的输入/输出设置中,您将看到:
  • Server: 172.172.228.138
  • Port: 2022
  • Username: 系统为您生成的 UUID
  • Password: 系统为您生成的密码
  • Base Path: /{skill-id}/

通过终端连接

在终端中运行以下命令进行连接:
sftp -P 2022 {username}@172.172.228.138
示例:
sftp -P 2022 [email protected]
注意: 在 SFTP 中指定端口号时请使用大写参数 -P(小写 -p 用于其他用途)。 出现提示时,输入密码。

步骤 8:浏览 SFTP 文件夹结构

连接成功后,将会看到 SFTP 提示符:sftp>

查看可用的 Skill

列出所有可用的 Process 技能:
sftp> ls
访问 Skill 文件夹 您将看到为每个 Skill(按其 Skill ID 标识)创建的文件夹,以及:
  • Catalogs - Document skill 目录
  • Catalogs-exception - 导入失败的目录
  • skills-import - Skill 导入目录
使用第 6 步中的 Skill ID:
sftp> cd {your-skill-id}
sftp> ls
你将看到三个文件夹:
  • Input - 在此上传要处理的文档
  • Input-exception - 导入失败的文档会被移到这里
  • Output - 处理完成的结果将显示在这里

步骤 9:上传文档进行处理

转到 Input 文件夹并上传您的文档。
sftp> cd Input
sftp> pwd
Remote working directory: /{skill-id}/Input

上传单个文件

使用文件的完整路径上传单个文件:
sftp> put ~/Documents/Sample\ Files/Demo\ Docs/invoice_1.jpg
或者先切换到本地目录:
sftp> lcd ~/Documents/Sample\ Files/Demo\ Docs
sftp> lls
sftp> put invoice_1.jpg
上传和下载文件

上传多个文件

sftp> mput *.jpg
sftp> mput invoice_*.pdf
注意: 上传到 Input 的文件在成功处理后会自动删除(通常在 20 秒内)。如果在上传后看不到您的文件,这意味着 Vantage 已经取走并开始处理它了!

验证上传结果

检查文件是否仍在 Input 文件夹中:
sftp> ls
如果文件夹为空或找不到文件,则表示处理已开始。

第 10 步:检查处理状态

监控 Input-exception 文件夹

如果某个文件导入失败,它会显示在此处:
sftp> cd ..
sftp> cd Input-exception
sftp> ls
空文件夹表示所有文件都已成功导入。

等待处理完成

处理时间取决于以下因素:
  • 文档复杂度
  • 已配置的提取 Skill
  • 当前系统负载
通常,简单的发票会在 30–60 秒内处理完成。

步骤 11:下载处理完成的结果

处理完成后,结果会显示在 Output 文件夹中。
sftp> cd ..
sftp> cd Output
sftp> ls

了解输出结构

处理结果会按照以下命名模式存放在子文件夹中:
{original-filename}-{transaction-id}
示例:
invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

查看结果文件夹内容

sftp> cd invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82
sftp> ls
Typical contents:
  • Invoice_US.json - 以 JSON 格式提取的数据
  • Invoice_US.csv - 以 CSV 格式提取的数据(如果已配置)
  • 其他文件,取决于输出设置

下载结果

设置本地下载目录:
sftp> lcd ~/Downloads
sftp> lpwd
Local working directory: /Users/yourname/Downloads
下载单个文件:
sftp> get Invoice_US.json
下载该文件夹中的所有文件:
sftp> mget *
将整个结果文件夹递归下载:
sftp> cd ..
sftp> get -r invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

了解 JSON 输出

默认输出是一个 JSON 文件,其中包含:
  • 文档结构 - 布局和组织方式
  • 提取的 field 值 - 从文档中提取的数据
  • 置信度评分 - 每项提取结果的可靠性
  • 规则错误 - 任何验证问题
  • field 元数据 - 关于每个 field 的附加信息
示例结构:
{
  "Document": {
    "DocumentType": "美国发票",
    "Fields": [
      {
        "Name": "InvoiceNumber",
        "Value": "INV-12345",
        "Confidence": 0.98
      },
      {
        "Name": "Total",
        "Value": "1250.00",
        "Confidence": 0.95
      }
    ]
  }
}
如需了解 JSON 架构的详细说明,请参见 ABBYY Vantage API 文档。

常用 SFTP 命令

CommandDescriptionExample
ls列出远程文件ls
lls列出本地文件lls
pwd显示远程目录pwd
lpwd显示本地目录lpwd
cd folder切换远程目录cd Output
lcd folder切换本地目录lcd ~/Downloads
put file上传单个文件put invoice.pdf
mput files上传多个文件mput *.jpg
get file下载单个文件get result.json
mget files下载多个文件mget *
get -r folder递归下载目录get -r results/
exit断开连接exit

故障排除

连接问题

问题:“连接被拒绝”或超时错误 解决方案:
  • 确认已连接到公司 VPN
  • 检查端口号(应为 2022,并使用大写参数 -P
  • 确认用户名和密码是否正确
  • 测试基本网络连通性:ping 172.172.228.138

上传问题

问题: 文件未处理 解决方案:
  • 检查 Input-exception 文件夹中是否有导入失败的文件
  • 确认文件格式是否受支持(PDF、JPG、PNG、TIFF 等)
  • 确保 Process 技能已发布
  • 检查文件大小限制(取决于具体配置)

无输出文件

问题: 上传后输出文件夹为空 解决方案:
  • 再等待一段时间——处理可能需要 30–60 秒或更长时间
  • 确认 Output 的目标已配置为 “Shared folder”(共享文件夹)
  • 在 Vantage Web 界面中检查处理事务日志
  • 确认 Extract 活动已正确配置相应的 Document Skill

权限错误

问题: 上传/下载时出现 “Permission denied”(权限被拒绝) 解决方案:
  • 确认为输入和输出使用了正确的凭据
  • 输入凭据允许的操作:上传、删除
  • 输出凭据允许的操作:查看、下载、重命名、删除
  • 检查该 Skill 是否已发布并处于活动状态

最佳实践

安全性

  • 切勿以明文形式共享 SFTP 凭据
  • 使用安全通道传输密码
  • 定期更换凭据
  • 将 SFTP 访问权限仅授予必需的人员

文件管理

  • 使用包含日期或 ID 的描述性文件名
  • 如有可能,尽量在非高峰时段批量处理文件
  • 及时下载并归档处理结果
  • 定期清理旧的结果文件夹

监控

  • 定期检查 Input-exception 文件夹中的导入失败项
  • 监控处理时间以识别瓶颈
  • 查看结果中的提取置信度
  • 为严重故障设置警报(如可用)

工作流程优化

  • 将相似的文档类型归类在一起
  • 根据您的用例配置合适的 Document Skill
  • 在投入生产使用前,先使用示例文档进行测试
  • 为团队参考编写并记录您的 SFTP 工作流程

后续步骤

现在您已经拥有一个可用的基于 SFTP 的文档处理流程:
  1. 使用各种文档进行测试 - 上传不同类型和格式的文件和文档
  2. 检查提取准确性 - 查看 JSON 结果和置信度分数
  3. 自定义提取 - 使用 Edit Mapping 微调 field 提取
  4. 自动化上传 - 创建脚本以实现文件上传自动化
  5. 与系统集成 - 通过 Vantage REST API 集成您的应用程序
  6. 扩展工作流 - 添加更多 Document skill 或创建其他 Process 技能
如需高级配置、API 集成或自定义工作流,请参阅 ABBYY Vantage 文档

附加资源

  • REST API 文档: 用于通过编程方式上传文件并获取结果
  • Skill Catalog: 浏览预构建的 Document skill
  • 支持: 联系 ABBYY 支持团队以获取技术支持

总结

您已经成功完成以下操作:
  • ✅ 在 ABBYY Vantage 中创建了一个 Process 技能
  • ✅ 配置了用于输入和输出的 SFTP 访问
  • ✅ 设置了文档提取技能
  • ✅ 通过 SFTP 命令行完成连接
  • ✅ 上传了待处理的文档
  • ✅ 下载了提取结果
您的文档处理流程现已运行正常,可以用于生产环境!