メインコンテンツへスキップ

概要

ABBYY Vantage は、インテリジェントな抽出機能による自動的なドキュメント処理を可能にします。本ガイドでは、SFTP ベースのワークフローに焦点を当てます。このワークフローを使用すると、共有フォルダーにドキュメントをアップロードし、処理結果を自動的に取得できます。 このガイドで行うこと:
  • Process Skill を作成および設定する
  • 入力および出力用の SFTP アクセスをセットアップする
  • コマンドライン経由でドキュメントをアップロードする
  • 抽出結果をダウンロードする
完了までの所要時間の目安: 15~20 分

Step 1: Process Skill を作成する

Process Skill は、Vantage におけるドキュメント処理ワークフローの基盤となります。
  1. ABBYY Vantage の Documents セクションに移動します。
  2. 左側のサイドバーから Skill Designer をクリックします。
  3. Skill タイプから Process Skill を選択します。
Process Skill の選択
  1. Create Process skill ダイアログで、次の項目を入力します:
    • Skill Name: プロセスの内容が分かる名前(例:「Process Skill Test 1」)
    • Description: この Skill が実行する処理の任意の説明
    • Technology Core Version: 3.0(推奨)
Process Skill の名前付け
  1. Create をクリックします。

ステップ 2: Process Skill ワークフローを設定する

Skill を作成したら、ドキュメント処理フローを設定します。
  1. Skill Designer の右側に Select Process Skill パネルが表示されます
  2. 単一のドキュメント タイプを処理するには、Simple Document skill workflow を選択します
Simple ワークフローの選択 これにより、次の要素を含むあらかじめ構成されたワークフローが作成されます:
  • Input コネクタ: ドキュメントがシステムに取り込まれる場所
  • OCR skill: Optical Character Recognition (OCR) による文字認識
  • Extract skill: データ抽出
  • Output コネクタ: 結果が出力される場所
ワークフローは中央のキャンバスに Input → OCR → Extract → Output と表示されます。

Step 3: SFTP 経由での入力を設定する

Input アクティビティを構成して、SFTP 経由でドキュメントを受信できるようにします。
  1. ワークフロー内の Input アクティビティをクリックします。
  2. 右側の Actions パネルで、Select additional source を有効にします。
  3. Shared folder のラジオボタンを選択します。
  4. 設定を行うには Settings をクリックします。
Configuring Input Activity

入力設定を構成する

Input Settings: Shared Folder ダイアログで、次のように設定します: Input Settings Dialog フォルダー設定:
  • Folder name: Input(デフォルト)
  • Import method: Single file
インポート用の認証情報(確認用):
  • Folder link: .../Input
  • Exceptions folder link: .../Input-exception
  • Username: 生成された UUID(例: 685df03c-9e22-41cb-a96f-4c408ab52735
  • Password: 表示/非表示を切り替え可能
Note: これらの認証情報をコピーしておいてください。SFTP で接続する際に必要になります。インポートできなかったファイルは exceptions フォルダーに移動されます。Skill を公開すると、Vantage は 20 秒ごとにファイルをチェックします。
  1. Save をクリックします。

ステップ 4: SFTP を介して出力を設定する

結果を SFTP 経由で出力するように Output アクティビティを設定します。
  1. ワークフローで Output アクティビティをクリックします。
  2. Actions パネルで、Select additional destination. をオンにします。
  3. Shared folder のラジオボタンを選択します。
  4. Settings をクリックして設定を行います。
Configuring Output Activity

出力設定を行う

Output Settings: Shared Folder ダイアログで次の項目を設定します。 Output Settings Dialog 情報:
  • Folder name: Output(デフォルト)
  • Folder: .../Output
  • Username: 生成された UUID(例: 685df03c-9e22-41cb-a96f-4c408ab52735
  • Password: 表示/非表示を切り替えるオプション付きで表示されます
エクスポートデータ:
  • Fields (JSON): 既定のエクスポート形式
注: 結果は、ソースファイル名とトランザクション ID を組み合わせた名前のサブフォルダーに整理されます(例: invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82)。ファイルはデータ保持ポリシーに従って自動的に削除されます。
  1. 「Save」をクリックします。

ステップ 5: 抽出 Skill を設定する

Extract アクティビティが認識して処理するドキュメントタイプを設定します。
  1. ワークフロー内の Extract アクティビティをクリックします。
  2. Actions パネルで Document Skills が表示されます。
Configuring Extraction Skills 使用可能な Document Skill には、次のものがあります。
  • Invoice
  • Invoice AU-NZ
  • Invoice CA
  • Invoice ES
  • Invoice UA
  • Invoice US
  1. ユースケースに関連するドキュメントタイプを選択します。
  2. 追加のドキュメントタイプが必要な場合は Add Skill をクリックします。
  3. 必要に応じて Edit Mapping を使用して field の抽出をカスタマイズします。

ステップ 6: Skill を公開して Skill ID を取得する

SFTP を使用する前に、Skill を公開し、その ID を確認する必要があります。
  1. Skill Designer 右上の Publish ボタンをクリックします。
  2. 公開後、ブラウザの URL に表示されている Skill ID を控えます。
URL から Skill ID を取得 URL の形式は次のとおりです。
https://vantage-preview.abbyy.com/skill-editor/Processing/{skill-id}
例えば: fc7116ea-ab6c-40fa-b10d-1aef61aaaa2c 警告: Skill ID は必ず手元に控えておいてください。SFTP で正しい Input フォルダーと Output フォルダーにアクセスする際に必要になります。

ステップ 7: SFTP に接続する

これで、Input/Output 設定で取得した認証情報を使用して SFTP に接続する準備が整いました。

接続情報

Input/Output 設定で、次の情報を確認します:
  • Server: 172.172.228.138
  • Port: 2022
  • Username: 生成された UUID
  • Password: 生成されたパスワード
  • Base Path: /{skill-id}/

ターミナル経由で接続する

ターミナルを開き、次のコマンドを実行して接続します:
sftp -P 2022 {username}@172.172.228.138
例:
sftp -P 2022 [email protected]
注意: SFTP でポート番号を指定する場合は、大文字の -P を使用します(小文字の -p には別の用途が割り当てられています)。 パスワードの入力を求められたら、パスワードを入力します。

ステップ 8: SFTP フォルダー構造を参照する

接続が確立されると、sftp> という SFTP プロンプトが表示されます。

利用可能な Skill を表示する

すべての利用可能な Process Skill を一覧表示します。
sftp> ls
Skill フォルダーへのアクセス 各 Skill ごとのフォルダー(Skill ID で識別されます)に加えて、次のものが表示されます。
  • Catalogs - Document skill のカタログ
  • Catalogs-exception - カタログのインポート失敗分
  • skills-import - Skill インポート用ディレクトリ
Step 6 で取得した Skill ID を使用します。
sftp> cd {your-skill-id}
sftp> ls
3 つのフォルダーが表示されるはずです:
  • Input - 処理する Document をアップロードする場所
  • Input-exception - インポートに失敗したファイルがここに移動されます
  • Output - 処理済みの結果が表示される場所

手順 9: 処理対象のドキュメントをアップロードする

Input フォルダに移動し、ドキュメントをアップロードします。
sftp> cd Input
sftp> pwd
Remote working directory: /{skill-id}/Input

単一ファイルをアップロードする

ファイルのフルパスを指定してアップロードします。
sftp> put ~/Documents/Sample\ Files/Demo\ Docs/invoice_1.jpg
または、先にローカルディレクトリを変更してください:
sftp> lcd ~/Documents/Sample\ Files/Demo\ Docs
sftp> lls
sftp> put invoice_1.jpg
ファイルのアップロードおよびダウンロード

複数のファイルをアップロードする

sftp> mput *.jpg
sftp> mput invoice_*.pdf
注: Input にアップロードしたファイルは、処理が正常に完了すると自動的に削除されます(通常は 20 秒以内です)。アップロード後にファイルが表示されない場合は、Vantage がすでにそのファイルの処理を開始していることを意味します。

アップロードの確認

Input フォルダーにファイルがまだ残っているかどうかを確認します。
sftp> ls
フォルダーが空になっているか、ファイルが見つからない場合は、処理が開始されています。

ステップ 10: 処理ステータスを確認する

Input-exception フォルダーを監視します

ファイルのインポートに失敗した場合は、ここに表示されます。
sftp> cd ..
sftp> cd Input-exception
sftp> ls
フォルダーが空であれば、すべてのファイルが正常にインポートされたことを示します。

処理が完了するまで待機する

処理時間は次の要因によって変動します:
  • ドキュメントの複雑さ
  • 設定されている抽出 Skill
  • 現在のシステム負荷
通常、シンプルな請求書であれば、30~60 秒程度で処理が完了します。

ステップ 11: 処理結果をダウンロードする

処理が完了すると、結果は Output フォルダーに出力されます。
sftp> cd ..
sftp> cd Output
sftp> ls

出力構造を理解する

結果は、次の命名パターンのサブフォルダーに整理されます。
{original-filename}-{transaction-id}
例:
invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

結果フォルダーの内容を表示する

sftp> cd invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82
sftp> ls
一般的な内容は次のとおりです。
  • Invoice_US.json - JSON 形式の抽出データ
  • Invoice_US.csv - CSV 形式の抽出データ(設定されている場合)
  • 出力設定に応じて生成される追加ファイル

結果のダウンロード

ローカルのダウンロードディレクトリを指定します:
sftp> lcd ~/Downloads
sftp> lpwd
ローカル作業ディレクトリ: /Users/yourname/Downloads
1つのファイルをダウンロードする:
sftp> get Invoice_US.json
フォルダー内のすべてのファイルをダウンロードする:
sftp> mget *
結果フォルダ全体を再帰的にダウンロードする:
sftp> cd ..
sftp> get -r invoice_1.jpg-4ac2a31b-d1b6-4231-99b2-39f00bc5df82

JSON 出力について

デフォルトの出力は、次の内容を含む JSON ファイルです:
  • Document 構造 - レイアウトと構成
  • 抽出された field の値 - ドキュメントから取得されたデータ
  • 信頼度スコア - 各抽出結果の信頼性
  • ルールエラー - 検証に関する問題
  • field メタデータ - 各 field に関する追加情報
構造の例:
{
  "Document": {
    "DocumentType": "Invoice US",
    "Fields": [
      {
        "Name": "InvoiceNumber",
        "Value": "INV-12345",
        "Confidence": 0.98
      },
      {
        "Name": "Total",
        "Value": "1250.00",
        "Confidence": 0.95
      }
    ]
  }
}
詳細な JSON スキーマについては、ABBYY Vantage API のドキュメントを参照してください。

便利な SFTP コマンド

CommandDescriptionExample
lsリモートファイルを一覧表示するls
llsローカルファイルを一覧表示するlls
pwdリモートディレクトリを表示するpwd
lpwdローカルディレクトリを表示するlpwd
cd folderリモートディレクトリを変更するcd Output
lcd folderローカルディレクトリを変更するlcd ~/Downloads
put file単一ファイルをアップロードするput invoice.pdf
mput files複数ファイルをアップロードするmput *.jpg
get file単一ファイルをダウンロードするget result.json
mget files複数ファイルをダウンロードするmget *
get -r folderフォルダを再帰的にダウンロードするget -r results/
exit切断するexit

トラブルシューティング

接続に関する問題

問題: 「Connection refused」またはタイムアウトエラー 解決策:
  • 会社の VPN に接続していることを確認する
  • ポート番号を確認する(-P を大文字で指定し、ポートは 2022 にする必要があります)
  • ユーザー名とパスワードが正しいことを確認する
  • 基本的なネットワーク接続をテストする:ping 172.172.228.138

アップロードの問題

問題: ファイルが処理されない 解決策:
  • 失敗したインポートがないか Input-exception フォルダを確認する
  • ファイル形式がサポート対象か確認する(PDF、JPG、PNG、TIFF など)
  • Process skill が公開済みであることを確認する
  • ファイルサイズの上限を確認する(設定によって異なります)

出力ファイルが生成されない

問題: アップロード後も出力フォルダーが空のままになる 解決策:
  • しばらく待つ – 処理に 30~60 秒以上かかる場合があります
  • Output が「Shared folder」宛先に設定されていることを確認する
  • Vantage の Web インターフェースでトランザクションログを確認する
  • Extract アクティビティに適切な Document skill が設定されていることを確認する

権限エラー

問題: アップロード/ダウンロード時に「Permission denied」エラーが発生する 解決策:
  • Input 用と Output 用で正しい認証情報を使用していることを確認する
  • Input の認証情報で許可される操作: アップロード、削除
  • Output の認証情報で許可される操作: 表示、ダウンロード、名前変更、削除
  • Skill が公開済みで有効になっていることを確認する

ベストプラクティス

セキュリティ

  • SFTP 認証情報を平文で共有しない
  • パスワードの送信には安全な手段を使用する
  • 認証情報を定期的に更新する
  • SFTP へのアクセスを必要な担当者に限定する

ファイル管理

  • 日付やIDを含むわかりやすいファイル名を使用する
  • 可能であれば、オフピーク時にファイルをバッチ処理する
  • 結果を速やかにダウンロードしてアーカイブする
  • 古い結果フォルダーを定期的に整理する

監視

  • 失敗したインポートを確認するために Input-exception フォルダーを定期的にチェックする
  • ボトルネックを特定するために処理時間を監視する
  • 抽出結果の信頼度スコアを確認する
  • 重大な障害に対するアラートを設定する(利用可能な場合)

ワークフローの最適化

  • 類似したドキュメントタイプをグループ化する
  • ユースケースに最適な Document skill を設定する
  • 本番環境での利用前にサンプルドキュメントでテストする
  • チームで参照できるよう SFTP ワークフローを文書化する

次のステップ

SFTP ベースのドキュメント処理パイプラインが動作するようになったので、次のことを行ってください:
  1. さまざまなドキュメントでテストする - 異なるファイル形式やドキュメントのバリエーションをアップロードします
  2. 抽出精度を確認する - JSON 形式の結果と信頼度スコアを確認します
  3. 抽出をカスタマイズする - Edit Mapping を使用して field の抽出を微調整します
  4. アップロードを自動化する - ファイルのアップロードを自動化するスクリプトを作成します
  5. システムと連携する - Vantage REST API を介してアプリケーションを接続します
  6. ワークフローを拡張する - さらに Document skill を追加するか、追加の Process skill を作成します
高度な設定、API 連携、またはカスタムワークフローについては、ABBYY Vantage のドキュメントを参照してください。

追加リソース

  • REST API Documentation: ファイルのプログラムによるアップロードおよび結果の取得に関するドキュメント
  • Skill Catalog: あらかじめ用意された Document skill を参照
  • Support: 技術的なサポートが必要な場合は ABBYY サポート窓口までお問い合わせください

まとめ

次の作業を完了しました:
  • ✅ ABBYY Vantage で Process Skill を作成しました
  • ✅ 入力および出力用の SFTP アクセスを設定しました
  • ✅ ドキュメント抽出用の Skill をセットアップしました
  • ✅ コマンドラインから SFTP で接続しました
  • ✅ 処理するドキュメントをアップロードしました
  • ✅ 抽出結果をダウンロードしました
これで、ドキュメント処理パイプラインが稼働状態となり、本番環境で使用できる準備が整いました。