Zum Hauptinhalt springen
FlexiCapture kann pro Tag mehrere Hundert bis Millionen Seiten verarbeiten und bis zu mehrere Tausend Operatoren unterstützen. Mithilfe der Richtlinien in diesem Dokument lassen sich die Systemlast im Voraus einfach abschätzen und sowohl die geeignete Architektur als auch die passende Hardware für die Server auswählen. Das System kann skaliert werden durch:
  • Erhöhen der Anzahl von Scan-Clients, Verifizierungs-Clients und Processing Stations;
  • Erhöhen der Leistung der Maschinen für die Application-, Processing-, Licensing- und Database-Server sowie für den FileStorage, wobei für diese Rollen mehrere Maschinen eingesetzt werden.
Die folgenden Zahlen helfen dabei, eine vorläufige Konfiguration der FlexiCapture-Serverkomponente zu bewerten oder auszuwählen.

 

20,000

5,000

1,000

8

3

3

 

Demo

1 Million

500,000

300,000

80

100

300

 

Medium

3 Millionen

2 Millionen

1 Million

120

500

1,000

 

Large (Medium 10 Gb/s)

Deutlich mehr

 

xLarge (Kombination von ABBYY FlexiCapture-Installationen)

Die Überwachung von Engpässen hilft festzustellen, ob die verwendete Hardware für die gewünschte Leistung nicht ausreicht und es höchste Zeit ist, das System hochzuskalieren. Demo ist eine typische Konfiguration für Demonstrationen oder Pilotprojekte, für Projekte im Produktivmaßstab jedoch nicht empfohlen. Alle Systemkomponenten werden auf einer virtuellen Maschine installiert oder auf einem PC bereitgestellt.

ABBYY FlexiCapture

1 Computer:

4-Core-CPU, 2,4 GHz

8 GB RAM

HDD:

  • 100 GB für Betriebssystem und temporäre Dateien
  • 100 GB für Database und FileStorage

Betriebssystem: Windows 2012 oder höher

MS SQL Express kann als Datenbankserver verwendet und auf derselben Maschine wie die FlexiCapture-Server installiert werden. Anstatt einen separaten FileStorage zu verwenden, können Dateien direkt in der Datenbank gespeichert werden. Operatoren und Processing Stations können auf derselben Maschine installiert werden.
In kommerziellen Projekten sollte die Processing Station niemals auf einem Computer installiert werden, auf dem FlexiCapture-Server oder der Database-Server gehostet werden, da sie sämtliche Ressourcen beansprucht und sich die Serverleistung verschlechtert.
Medium ist eine typische Konfiguration für kommerzielle Projekte, da sie skalierbar ist: Jede Serverkomponente wird auf einem eigenen Computer installiert. Der Application Server sollte auf einem eigenen Computer installiert werden, da er anders skaliert als der Datenbankserver, der Processing Server und der Licensing Server.
Technisch gesehen können der Application Server, der Processing Server und der Licensing Server auf demselben Computer installiert werden. Die Serverredundanz ist dann gewährleistet, die Skalierbarkeit des Application Server jedoch nicht.
  • Der Application Server ist ein Webdienst in IIS; seine Skalierbarkeit und Ausfallsicherheit werden durch Clustering mit der Microsoft Network Load Balancing-Technologie erreicht. Alle Clusterknoten sind gleichberechtigt, laufen im Active-Active-Modus und können jederzeit abgeschaltet werden.
  • Der Processing Server und der Licensing Server sind Windows-Services; ihre Ausfallsicherheit wird durch die Einrichtung eines Active-Passive-Clusters auf Basis der Microsoft Failover Cluster-Technologie erreicht.
Microsoft untersagt ausdrücklich die gemeinsame Verwendung dieser Technologien auf demselben Computer. Wenn Sie nur Ausfallsicherheit benötigen, clustern Sie den Application Server innerhalb von IIS, das ebenfalls Clustering mit Microsoft Failover Cluster unterstützt. Licensing Server und Processing Server können auf demselben Computer installiert werden. Wir empfehlen, den Datenbankserver auf einem dedizierten Computer zu installieren. Er ist sehr ressourcenintensiv. Wenn Sie ihn dennoch mit bestimmten anderen FlexiCapture-Servern kombinieren, beschränken Sie seine CPU- und RAM-Nutzung und legen Sie die Datenbankdateien auf einer physisch separaten HDD ab, damit die Leistung der anderen Server nicht beeinträchtigt wird. Bei geringer Last und für eine bessere Leistung können Sie schnelle HDDs auf dem Rechner des Application Server als FileStorage verwenden, z. B. SATA2-Festplatten mit 15.000 U/min oder mehr, die zur Redundanz mindestens als RAID1 oder für zusätzliche Leistung als RAID10 konfiguriert sind. In späteren Projektphasen jedoch, wenn das Volumen der zu verarbeitenden Seiten zunimmt, führt diese Konfiguration wahrscheinlich zu einem Engpass, insbesondere bei der Verarbeitung von Graustufen- oder Farbbildern. Problematisch ist zudem, dass sie nicht im laufenden Betrieb skaliert werden kann – dazu muss das System heruntergefahren und es müssen andere HDDs angeschlossen werden. Verwenden Sie externe Speicher wie NAS oder SAN, auf die der Application Server mit 1 Gb/s über LAN, SCSI, Fibre Channel usw. Lese-/Schreibzugriff hat. Dadurch lässt sich das FileStorage problemlos erweitern. Der folgende Text erläutert, wie die erforderliche Leistung der FileStorage-Hardware berechnet wird. Eine typische FlexiCapture-Netzwerkkonfiguration in einer Unternehmensumgebung: Beachten Sie, dass empfohlen wird, den Application Server für eine schnelle und zuverlässige Kommunikation direkt mit dem FileStorage und dem Datenbankserver zu verbinden.

Application Server

CPU: 8 physische Kerne, 2,4 GHz oder schneller

16 GB RAM

HDD: 100 GB

2 NICs mit 1 Gb/s:

  • eine zur Verbindung mit dem LAN und
  • eine zur Verbindung mit dem Datenbankserver

FileStorage: Falls ein SAN verwendet wird, schließen Sie es über SCSI, Fibre Channel oder InfiniBand an.

OS: Windows 2012 oder neuer

Als Web-Service und zentrale Komponente der gesamten FlexiCapture-Kommunikation ist der Application Server für beides verantwortlich:

  • die Übertragung großer Binärdatenmengen; und
  • schnelle Antworten auf kleine SOAP-/JSON-Serviceanfragen.

Kritische Ressourcen sind:

  1. Schnelle Netzwerkschnittstelle für die Verbindung mit Clients
  2. Schnelle, stabile Verbindung zum FileStorage- und Database Server
  3. Mehrkern-CPU mit hoher Taktrate.
    • Je höher die Geschwindigkeit, desto schneller wird jede Anfrage bearbeitet.
    • Je mehr physische Kerne vorhanden sind, desto mehr Anfragen können gleichzeitig bearbeitet werden.

Um die CPU optimal auszunutzen, verwenden Sie für den FlexiCapture Web Services Anwendungspool doppelt so viele IIS Worker Processes wie physische Kerne vorhanden sind. Z. B. 16 IIS Worker Processes für einen 8-Core-Prozessor.

  1. Ausreichend RAM, mindestens 2 GB pro physischem Kern.

Wenn eine dieser Ressourcen einen Engpass verursacht, skalieren Sie den Application Server entsprechend:

  • über die Microsoft Network Load Balancing-Technologie – sie bildet einen Cluster aus mehreren Computern mit der Rolle Application Server. Detaillierte Anweisungen finden Sie im FlexiCapture System Administrator’s Guide.
  • auf Hardwareebene, indem Sie verschiedene Client-Gruppen an unterschiedliche Maschinen mit der Rolle Application Server anbinden. Z. B. können Sie eine Maschine für die gesamte automatische Verarbeitung verwenden und eine andere, um den Zugriff für externe Clients bereitzustellen.

In jedem Fall sollten alle Maschinen mit der Rolle Application Server gleich gut mit derselben Database und demselben FileStorage verbunden sein.

Processing Server, Licensing Server

4-Core-CPU, 2,4 GHz oder schneller

8 GB RAM

HDD: 100 GB

NIC 1 GB/s zur Verbindung mit dem LAN

BS: Windows 2012 oder neuer

Eine stabile Netzwerkverbindung ist für die Server unerlässlich. Andernfalls wird die Dokumentverarbeitung gestoppt. Um Redundanz sicherzustellen, verwenden Sie Microsoft Failover Cluster. Detaillierte Anweisungen finden Sie im FlexiCapture System Administrator’s Guide.

Der Licensing Server hält Kopien der Lizenzen für alle gleichzeitigen Clients im Speicher vor. Bitte berücksichtigen Sie dies, wenn Sie eine große Anzahl von Scan- und Verifizierungsoperatoren gleichzeitig einsetzen möchten. Wir empfehlen außerdem die 64-Bit-Version für Projekte mit einer großen Anzahl gleichzeitiger Clients. Unsere Tests haben gezeigt, dass 2 GB RAM ausreichen, um Lizenzen für bis zu 1000 Clients zu verwalten. Wenn Sie gleichzeitig mehr Clients bedienen möchten, sollten Sie den Einsatz mehrerer Licensing Server in Betracht ziehen.

Datenbankserver

Für MS SQL Server:

Datenbank: MS SQL Server 2014 oder höher, Standard- oder Enterprise-Edition

Hardware:

CPU: 8 physische Kerne, 3,4 GHz oder schneller

16 GB RAM oder mehr

HDD: 400 GB

Betriebssystem: Windows 2012 oder neuer

Für Oracle:

Datenbank: Oracle 12c Enterprise Edition

Hardware: Oracle Exadata Database Machine X2-2, Quarter Rack

ABBYY FlexiCapture unterstützt MS SQL Server und Oracle, die auf beliebigen Plattformen installiert werden können. Beide Datenbankserver verfügen über eigene Empfehlungen zu optimalen Einstellungen, Skalierung und Fehlertoleranz.

Empfohlen für den MS SQL Server:

  • Wenn möglich, mehr RAM auf dem Datenbankserver, damit der Großteil der Datenbankdateien im RAM gehalten wird und schneller darauf zugegriffen werden kann;
  • Eine schnelle HDD für den schnellen Zugriff auf den auf der Festplatte gespeicherten Teil der Datenbank (wir empfehlen dafür eine SSD);
  • Datenbankmodi mit Transaktionsverzögerungen vermeiden (Mirroring usw.);
  • Simple als Wiederherstellungsmodell für die Datenbank wählen;
  • Die Datenbank und ihr Protokoll auf separaten Festplatten speichern;
  • Regelmäßige Indexaktualisierungen für Tabellen, die sich häufig ändern (Document, Page, Batch, Task und EventLog). Andernfalls kann ein Index größer werden als die Daten in der Tabelle.

FileStorage

NAS oder SAN,

angeschlossen über LAN, SCSI, Fibre Channel oder InfiniBand

Lese-/Schreibgeschwindigkeit: 100 MB/s*

Kapazität: 5 TB*

*Die Lese-/Schreib- und Kapazitätsanforderungen hängen maßgeblich von diesen 2 Faktoren ab:

1. Durchschnittliche und maximale Anzahl der pro Tag (d. h. 24 Stunden) und pro Stunde verarbeiteten Seiten sowie deren Farbmodus. Wie im Abschnitt „Performance Metrics“ erwähnt, lässt sich der Eingabedurchsatz in Byte pro Sekunde abschätzen, wenn typische Dateigrößen für in Farbe, Graustufen und Schwarz-Weiß gescannte Seiten zugrunde gelegt werden.

Bilder machen den Großteil der innerhalb des Systems übertragenen Daten aus. Anhand der Analyse des Verarbeitungsworkflows definieren wir die 2 Werte:

  • die Zahl R der Stufen, in denen Seitenbilder vom Application Server heruntergeladen werden;
  • die Zahl W der Stufen, in denen Seitenbilder auf den Application Server hochgeladen werden.

Die Anforderungen an die Lese-/Schreibgeschwindigkeit lassen sich wie folgt berechnen:

  • Erforderliche Schreibgeschwindigkeit = W x Eingabedurchsatz in Byte pro Sekunde.
  • Erforderliche Lesegeschwindigkeit = R x Eingabedurchsatz in Byte pro Sekunde.

Beispiel. Ein Kunde muss 10.000 Graustufenseiten pro Stunde verarbeiten. Der Verarbeitungsworkflow umfasst 3 Stufen.

  1. Eine Processing Station lädt Bilder aus einem Hot Folder herunter, führt eine Voraberkennung durch und lädt sie auf den Application Server hoch (W=1, R=0).
  2. Eine weitere Processing Station ruft diese Bilder vom Application Server ab, führt die Erkennung durch, und die OCR-Ergebnisse gelangen zum Application Server (W=1, R=1).
  3. Ein Operator für die Verifizierung lädt Bilder und erkannte Daten zur Prüfung herunter und sendet die verifizierten Daten (W=1, R=2) an den Server zurück.
  4. Abschließend lädt eine Processing Station Bilder und verifizierte Daten herunter, um sie an das Backend-System des Kunden zu senden (W=1, R=3).
    Unter der Annahme, dass die Dateigröße eines durchschnittlichen A4-Graustufenscans 3 MB beträgt, ergeben sich die folgenden Berechnungen:

Eingabedurchsatz = 10.000 Graustufen-Seitenbilder/Stunde = 2,8 Graustufenbilder/s = 8,4 MB/s.

Erforderliche Schreibgeschwindigkeit = 1 x 8,4 MB/s = 8,4 MB/s.

Erforderliche Lesegeschwindigkeit = 3 x 8,4 MB/s = 25,2 MB/s.

Um die Leistung der Festplatte zu testen, können Sie das Tool CrystalDiskMark verwenden, das unter der MIT-Lizenz vertrieben wird.

  1. Die Zeitspanne, für die Dokumente im System gespeichert werden.

Beispiel. Ein Kunde muss innerhalb von 24 Stunden 100.000 Graustufenbilder verarbeiten. Gemäß dem Service-Level-Agreement beträgt die Verarbeitungszeit 2 Tage pro Dokument. Verarbeitete Dokumente werden aufgrund zusätzlicher Prüfungen im ERP-System des Kunden 2 Wochen lang gespeichert; bei Abweichungen werden Dokumente in FlexiCapture bearbeitet und anschließend erneut in das ERP-System hochgeladen.

Somit müssen Bilder 2+14 = 16 Tage lang gespeichert werden, und das System wird 16 x 100.000 Graustufenbilder x 3 MB (durchschnittliche Dateigröße eines A4-Graustufenbilds) = 4,8 TB an Daten ansammeln.

Hinweis: Wir empfehlen dringend die Verwendung einer fehlertoleranten Speichertechnologie, z. B. RAID 10. Suchindizierung und Antiviren-Scans der FileStorage-Inhalte können die Leistung beeinträchtigen oder den Zugriff auf Dateien blockieren, die im System selbst verarbeitet werden.

Die Konfiguration Large ist erforderlich, wenn Sie mit einem erheblichen Volumen (mehr als 300.000) an Farbseiten arbeiten. Wir geben für sie eine Kapazität von bis zu 3 Millionen Schwarzweißseiten oder bis zu 1 Million Farbseiten innerhalb von 24 Stunden an. Alles, was oben über die Konfiguration Medium erwähnt wurde, gilt auch für die Konfiguration Large. Der Unterschied besteht hier darin, dass Sie alle Optimierungsempfehlungen befolgen und jedem Teil des Systems besondere Aufmerksamkeit widmen müssen – um die Auslastung zu berechnen und Hardware auszuwählen, die leistungsstark genug, aber nicht zu teuer ist. Testen Sie unter anderem die Internetverbindung und den Backend-Connector, um sicherzustellen, dass sie die gewünschte Leistung erbringen können. Ziehen Sie von Anfang an den Einsatz eines 10-Gb/s-Netzwerks und eines leistungsstarken FileStorage in Betracht. Eine mögliche Netzwerkarchitektur für die Konfiguration Large ist unten dargestellt. Anstatt typische Systemanforderungen für Large-Konfigurationen anzugeben, empfehlen wir, sich die getesteten Konfigurationen und ihre Leistung anzusehen, wie in diesem Dokument beschrieben. Um eine noch bessere Leistung zu erzielen, kombinieren Sie mehrere unabhängige FlexiCapture-Installationen unter einem Administration and Monitoring point – als Konfiguration xLarge bezeichnet – was über den Rahmen dieses Dokuments hinausgeht.