メインコンテンツへスキップ

概要

ABBYY Vantage は、インテリジェントな抽出機能によるドキュメントの自動処理を可能にします。本ガイドでは、SFTP を利用したワークフローに焦点を当てます。このワークフローでは、共有フォルダーにドキュメントをアップロードし、処理済みの結果を自動的に取得できます。 このガイドで行うこと:
  • Process Skill の作成と構成
  • 入力および出力用の SFTP 接続のセットアップ
  • コマンドライン経由でのドキュメントのアップロード
  • 抽出結果のダウンロード
所要時間: 15~20 分

ステップ 1: Process Skill を作成する

Process Skill は、Vantage におけるドキュメント処理ワークフローの基盤となるコンポーネントです。
  1. ABBYY Vantage で Documents セクションに移動します。
  2. 左側のサイドバーから Skill Designer をクリックします。
  3. スキルタイプから Process Skill を選択します。
Process skill の選択
  1. Create Process skill ダイアログで、次の情報を入力します:
    • Skill Name: プロセスをわかりやすく表す名前(例:「Process Skill Test 1」)
    • Description: この Skill が何を行うかの任意の説明文
    • Technology Core Version: 3.0(推奨)
Process skill の名前設定
  1. Create をクリックします。

ステップ 2: Process Skill ワークフローを構成する

Skill を作成したら、ドキュメント処理フローを設定します。
  1. Skill Designer の右側に Select Process Skill パネルが表示されます
  2. 単一のドキュメントタイプを処理するには Simple Document skill workflow を選択します
Selecting Simple Workflow これにより、次の要素で構成された事前設定済みワークフローが作成されます:
  • Input コネクタ: ドキュメントがシステムに取り込まれる場所
  • OCR skill: Optical Character Recognition (OCR)
  • Extract skill: データ抽出
  • Output コネクタ: 結果が出力される場所
ワークフローは中央のキャンバスに Input → OCR → Extract → Output と表示されます。

ステップ 3: SFTP 経由の入力を設定する

Input アクティビティを設定して、SFTP 経由で文書を受信できるようにします。
  1. ワークフロー内の Input アクティビティをクリックします。
  2. 右側の Actions パネルで Select additional source にチェックを入れます。
  3. Shared folder ラジオボタンを選択します。
  4. Settings をクリックして設定します。
Configuring Input Activity

入力設定を行う

Input Settings: Shared Folder ダイアログで次のように設定します。 Input Settings Dialog フォルダー設定:
  • フォルダー名: Input(デフォルト)
  • インポート方法: 単一ファイル
インポート用の認証情報(確認用に表示):
  • フォルダーリンク: .../Input
  • 例外フォルダーリンク: .../Input-exception
  • ユーザー名: 生成された UUID(例: 685df03c-9e22-41cb-a96f-4c408ab52735
  • パスワード: 表示/非表示を切り替えるオプション付き
注: これらの認証情報をコピーして保管してください。SFTP で接続するときに必要になります。インポートできないファイルは例外フォルダーに移動されます。Skill の公開後、Vantage は 20 秒ごとにファイルをチェックします。
  1. Save をクリックします。

ステップ4:SFTP 経由の出力を設定する

SFTP 経由で結果を出力するように Output アクティビティを設定します。
  1. ワークフロー内の Output アクティビティをクリックします。
  2. Actions パネルで Select additional destination. にチェックを入れます。
  3. Shared folder ラジオボタンを選択します。
  4. 設定するには Settings をクリックします。
Output アクティビティの構成

出力設定を構成する

Output Settings: Shared Folder ダイアログで以下のように設定します。 Output Settings Dialog 情報:
  • Folder name: Output(デフォルト)
  • Folder: .../Output
  • Username: 生成された UUID(例: 685df03c-9e22-41cb-a96f-4c408ab52735
  • Password: 表示/非表示を切り替えるオプションがあります
エクスポートされるデータ:
  • Fields (JSON): デフォルトのエクスポート形式
注: 結果は、ソースファイル名とトランザクション ID を名前とするサブフォルダーに整理されます(例: invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82)。ファイルはデータ保持ポリシーに従って自動的に削除されます。
  1. Save をクリックします。

Step 5: Extraction Skill を設定する

Extract アクティビティが認識して処理するドキュメント タイプを設定します。
  1. ワークフロー内の Extract アクティビティをクリックします。
  2. Actions パネルで Document Skills が表示されます。
Configuring Extraction Skills 使用可能な Document skill には次のものがあります:
  • Invoice
  • Invoice AU-NZ
  • Invoice CA
  • Invoice ES
  • Invoice UA
  • Invoice US
  1. ユースケースに関連するドキュメント タイプを選択します。
  2. 追加のドキュメント タイプが必要な場合は Add Skill をクリックします。
  3. 必要に応じて Edit Mapping を使用して field の抽出をカスタマイズします。

ステップ 6: 公開して Skill ID を取得する

SFTP を利用する前に、まず Skill を公開し、その ID を確認しておく必要があります。
  1. Skill Designer 右上の Publish ボタンをクリックします。
  2. 公開が完了したら、ブラウザーの URL から Skill ID を確認して控えます。
Getting Skill ID from URL URL の形式は次のとおりです:
https://vantage-preview.abbyy.com/skill-editor/Processing/{skill-id}
例えば: fc7116ea-ab6c-40fa-b10d-1aef61aaaa2c 警告: Skill ID は必ず控えておきましょう。SFTP で正しい Input フォルダーと Output フォルダーにアクセスするために必要です。

ステップ 7: SFTP に接続する

これで、Input/Output 設定で取得した認証情報を使用して SFTP に接続する準備が整いました。

接続情報

Input/Output 設定には、次の接続情報があります:
  • Server: 172.172.228.138
  • Port: 2022
  • Username: あなた用に生成された UUID
  • Password: あなた用に生成されたパスワード
  • Base Path: /{skill-id}/

ターミナルで接続する

ターミナルを開き、以下のコマンドで接続します:
sftp -P 2022 {username}@172.172.228.138
例:
sftp -P 2022 [email protected]
注意: SFTP でポート番号を指定する場合は、大文字の -P を使用します(小文字の -p は別の用途に使用されます)。 パスワードの入力を求められたら、パスワードを入力します。

ステップ 8: SFTP フォルダー構造を操作する

接続が確立されると、SFTP プロンプト sftp> が表示されます。

利用可能な Skill を表示する

利用可能な Process Skill をすべて一覧表示します:
sftp> ls
Skill フォルダーへのアクセス 各 Skill(Skill ID で識別)ごとのフォルダーに加えて、次のフォルダーが表示されます。
  • Catalogs - Document skill のカタログ
  • Catalogs-exception - カタログのインポートに失敗したもの
  • skills-import - Skill をインポートするためのディレクトリ
手順 6 で取得した Skill ID を使用します。
sftp> cd {your-skill-id}
sftp> ls
次の 3 つのフォルダーが表示されます:
  • Input - 処理するドキュメントをアップロードする場所
  • Input-exception - 取り込みに失敗したファイルがここに移動されます
  • Output - 処理結果が表示される場所

ステップ 9: 処理するドキュメントのアップロード

Input フォルダーに移動し、処理するドキュメントをアップロードします。
sftp> cd Input
sftp> pwd
Remote working directory: /{skill-id}/Input

1 つのファイルをアップロードする

ファイルのフルパスを指定してアップロードします:
sftp> put ~/Documents/Sample\ Files/Demo\ Docs/invoice_1.jpg
または、先にローカルディレクトリを変更してください:
sftp> lcd ~/Documents/Sample\ Files/Demo\ Docs
sftp> lls
sftp> put invoice_1.jpg
ファイルのアップロードとダウンロード

複数のファイルをアップロードする

sftp> mput *.jpg
sftp> mput invoice_*.pdf
注意: Input にアップロードされたファイルは、処理が正常に完了すると自動的に削除されます(通常 20 秒以内)。アップロード後にファイルが表示されない場合は、Vantage がすでに処理のためにファイルを取り込んでいることを意味します。

アップロードの確認

ファイルが引き続き Input フォルダー内にあるかどうかを確認します:
sftp> ls
フォルダーが空になっている、またはファイルが見つからない場合は、処理が開始されています。

ステップ 10: 処理状況を確認する

Input-exception フォルダーの監視

ファイルのインポートに失敗すると、ここに表示されます。
sftp> cd ..
sftp> cd Input-exception
sftp> ls
空のフォルダーは、すべてのファイルが正常にインポートされたことを示します。

処理の完了を待つ

処理時間は次の要因によって変動します:
  • ドキュメントの複雑さ
  • 構成されている抽出 Skill
  • 現在のシステム負荷
通常、シンプルな請求書であれば、処理には 30〜60 秒程度かかります。

手順 11: 処理済み結果をダウンロードする

処理が完了すると、結果は Output フォルダーに出力されます。
sftp> cd ..
sftp> cd Output
sftp> ls

出力構造について

結果は、次の命名パターンでサブフォルダーに整理されます。
{original-filename}-{transaction-id}
例:
invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

結果フォルダーの内容を表示

sftp> cd invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82
sftp> ls
主な内容:
  • Invoice_US.json - JSON 形式で抽出されたデータ
  • Invoice_US.csv - CSV 形式で抽出されたデータ(設定した場合)
  • 出力設定に応じた追加ファイル

結果をダウンロードする

ローカルのダウンロードディレクトリを設定します:
sftp> lcd ~/Downloads
sftp> lpwd
ローカル作業ディレクトリ: /Users/yourname/Downloads
1 つのファイルをダウンロードする:
sftp> get Invoice_US.json
フォルダー内のすべてのファイルをダウンロード:
sftp> mget *
結果フォルダー全体を再帰的にダウンロードするには:
sftp> cd ..
sftp> get -r invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

JSON 出力について

デフォルトの出力は、次の内容を含む JSON ファイルです。
  • Document 構造 - レイアウトと構成
  • 抽出された field 値 - ドキュメントから取得されたデータ
  • 信頼度スコア - 各抽出結果の信頼性
  • ルールエラー - 検証に関する問題
  • field メタデータ - 各 field に関する追加情報
構造の例:
{
  "Document": {
    "DocumentType": "Invoice US",
    "Fields": [
      {
        "Name": "InvoiceNumber",
        "Value": "INV-12345",
        "Confidence": 0.98
      },
      {
        "Name": "Total",
        "Value": "1250.00",
        "Confidence": 0.95
      }
    ]
  }
}
JSON スキーマの詳細については、ABBYY Vantage API のドキュメントを参照してください。

便利な SFTP コマンド

CommandDescriptionExample
lsリモートファイルを一覧表示ls
llsローカルファイルを一覧表示lls
pwdリモートディレクトリを表示pwd
lpwdローカルディレクトリを表示lpwd
cd folderリモートディレクトリを変更cd Output
lcd folderローカルディレクトリを変更lcd ~/Downloads
put file単一ファイルをアップロードput invoice.pdf
mput files複数ファイルをアップロードmput *.jpg
get file単一ファイルをダウンロードget result.json
mget files複数ファイルをダウンロードmget *
get -r folderフォルダーを再帰的にダウンロードget -r results/
exit切断exit

トラブルシューティング

接続に関する問題

問題: 「Connection refused」やタイムアウトエラーが発生する場合 解決策:
  • 会社の VPN に接続していることを確認します
  • ポート番号が 2022 であり、オプションが大文字の -P になっていることを確認します
  • ユーザー名とパスワードが正しいことを確認します
  • 基本的なネットワーク疎通を確認します: ping 172.172.228.138

アップロードの問題

問題: ファイルが処理されない 解決方法:
  • Input-exception フォルダーで失敗したインポートがないか確認する
  • ファイル形式がサポート対象か確認する(PDF、JPG、PNG、TIFF など)
  • Process Skill が公開されていることを確認する
  • ファイルサイズの制限を確認する(構成によって異なる)

出力ファイルが生成されない

問題: アップロード後も出力フォルダーが空のままである 解決策:
  • 少し時間をおく - 処理に 30~60 秒以上かかる場合があります
  • 出力の設定で出力先が「Shared folder」になっていることを確認する
  • Vantage の Web インターフェースでトランザクションログを確認する
  • Extract アクティビティに適切な Document skill が設定されていることを確認する

権限エラー

問題: アップロード/ダウンロード時に「Permission denied」と表示される 解決策:
  • Input 用と Output 用で正しい資格情報を使用しているか確認する
  • Input 用資格情報で可能な操作: アップロード、削除
  • Output 用資格情報で可能な操作: 表示、ダウンロード、名前変更、削除
  • Skill が公開済みで、かつアクティブであることを確認する

ベストプラクティス

セキュリティ

  • SFTP の認証情報をプレーンテキストで共有しない
  • パスワードの送信には安全な経路を使用する
  • 認証情報を定期的に変更する
  • SFTP へのアクセスを必要な担当者のみに限定する

ファイル管理

  • 日付やIDを含むわかりやすいファイル名を使用する
  • 可能であれば、ピーク時間帯を避けてファイルをバッチ処理する
  • 結果を速やかにダウンロードしてアーカイブする
  • 古い結果フォルダーを定期的に整理・削除する

監視

  • インポート失敗ジョブを検出するために、Input-exception フォルダーを定期的にチェックする
  • ボトルネックを特定するために処理時間を監視する
  • 抽出結果の信頼度スコアを確認する
  • 重大な障害に対するアラートを設定する(使用可能な場合)

ワークフローの最適化

  • 類似したドキュメントタイプをまとめる
  • ユースケースに適した Document skill を設定する
  • 本番利用の前にサンプルドキュメントでテストする
  • チームの参照用に SFTP ワークフローを文書化しておく

次のステップ

SFTP ベースのドキュメント処理パイプラインが構成できたら、次の手順を実行します。
  1. さまざまなドキュメントでテストする - 異なるファイル形式やドキュメントのバリエーションをアップロードします
  2. 抽出精度を確認する - JSON の結果と信頼度スコアを確認します
  3. 抽出をカスタマイズする - Edit Mapping を使用して field 抽出を微調整します
  4. アップロードを自動化する - ファイルのアップロードを自動化するスクリプトを作成します
  5. システムと連携する - Vantage REST API 経由でアプリケーションを接続します
  6. ワークフローを拡張する - さらに Document Skill を追加する、または Process Skill を追加で作成します
高度な設定、API 連携、またはカスタムワークフローについては、ABBYY Vantage ドキュメントを参照してください。

追加リソース

  • REST API ドキュメント: ファイルのプログラムからのアップロードおよび結果の取得方法
  • Skill Catalog: あらかじめ用意された Document skill を閲覧
  • サポート: 技術サポートについては ABBYY サポート窓口までお問い合わせください

まとめ

次の作業を正常に完了しました:
  • ✅ ABBYY Vantage で Process Skill を作成しました
  • ✅ 入力および出力用の SFTP アクセスを構成しました
  • ✅ ドキュメント抽出用の Skill をセットアップしました
  • ✅ SFTP コマンドラインから接続しました
  • ✅ 処理するドキュメントをアップロードしました
  • ✅ 抽出結果をダウンロードしました
これでドキュメント処理パイプラインが稼働し、本番環境で使用する準備が整いました。