Wann eine unternehmensbasierte Klassifizierung sinnvoll ist
Bei der Klassifizierung wird jedes Dokument einer bestimmten Klasse zugeordnet (weitere Informationen finden Sie im Abschnitt Classification). Jedes dokumentausstellende Unternehmen kann dabei als eigene Klasse behandelt werden.
Typischerweise sehen Dokumente desselben Unternehmens ähnlich aus und enthalten dieselben Feldtypen an denselben Positionen, was die Datenextraktion erleichtert.
Dokumente können mithilfe einer Unternehmensdatenbank klassifiziert werden. Diese Datenbank sollte in das entsprechende ABBYY FlexiCapture-Projekt eingebunden sein. Zum Befüllen dieser Datenbank können Sie die in Ihrem ERP-System gespeicherte Unternehmensliste verwenden. ABBYY FlexiCapture synchronisiert die Unternehmensdatenbank regelmäßig mit den neuesten Daten aus Ihrem ERP-System. Wenn Sie noch keine Unternehmensdatenbank haben, können Sie sie beim Erfassen von Daten aus Dokumenten erstellen, indem Sie in der Phase der Dokumentverifizierung Unternehmen in eine Datenbank aufnehmen.
Das Programm sucht nur auf der ersten und der letzten Seite jedes Dokuments nach den erforderlichen Feldern, da sich die Unternehmensinformationen in der Regel auf diesen Seiten befinden.
Die unternehmensbasierte Klassifizierung hat gegenüber anderen Klassifizierungsmethoden folgende Vorteile:
- Es ist nicht erforderlich, Beispieldokumentbilder zu sammeln, um einen Trainingsdatensatz zu erstellen, was viel Zeit und Aufwand kosten kann.
- Dokumente können anhand von bis zu 100.000 Klassen klassifiziert werden, was deutlich mehr ist als bei der bild- und textbasierten Klassifizierung.
Die unternehmensbasierte Klassifizierung kann für die Feldextraktion verwendet werden. Jedes Unternehmen verfügt über eine eigene Abschnittsvariante, für die Sie ein separates FlexiLayout trainieren oder erstellen können.
Innerhalb eines Projekts kann Folgendes gleichzeitig verwendet werden:
- ein Dokumenttyp-Klassifikator auf Batch-Typ- oder Projektebene
- ein unternehmensbasierter Klassifikator für Dokumente desselben Typs auf der Ebene der Document Definition
Zunächst führt das Programm den Dokumenttyp-Klassifikator aus, um die Klasse der vorliegenden Dokumente zu bestimmen, und anschließend den unternehmensbasierten Klassifikator für die Dokumente der erforderlichen Klasse.
Die Dokumentvarianten, die der Klassifikator anhand der Unternehmensdatenbank erkennt, identifizieren die für das Training zu verwendenden FlexiLayouts eindeutig. Das bedeutet, dass das Feldtraining für jedes Unternehmen unabhängig durchgeführt wird.
Konfigurieren der unternehmensbasierten Klassifizierung
Die unternehmensbasierte Klassifizierung wird innerhalb einer Document Definition durchgeführt, d. h. für Dokumente desselben Typs. Dokumente desselben Typs haben identische Gruppen von zu extrahierenden Datenfeldern (weitere Informationen finden Sie im Abschnitt Document Definitions).
So klassifizieren Sie Dokumente mithilfe einer Unternehmensdatenbank:
- Klicken Sie mit der rechten Maustaste auf einen Dokumentabschnitt und klicken Sie auf Properties, oder öffnen Sie den Document Definition editor und klicken Sie auf Document Definition → Eigenschaften der Dokumentdefinition.
- Wählen Sie auf der Registerkarte Data Sets einen Datensatz aus der Liste aus und klicken Sie auf die Schaltfläche Set Up…
- Wählen Sie die Option Use database of companies aus. Standardmäßig sind die erforderlichen Spalten und ihre Typen im Datensatz bereits angegeben. (Ein Datensatz ist im Wesentlichen eine Tabelle mit einer Liste von Feldern, in denen nach Unternehmen gesucht wird; Benutzer können diese Tabelle nicht ändern.)
- Um den Datensatz mit einer ODBC-kompatiblen Datenbank zu verbinden, müssen Sie jedes Feld im Datensatz seinem Gegenstück in der Datenbank zuordnen. Detaillierte Anweisungen finden Sie unter Using vendor and business unit databases.
Hinweis: Das Programm sucht nach Unternehmen, deren Datensatzfelder den entsprechenden Datenbankfeldern zugeordnet wurden. Sie müssen mindestens ein Feld zuordnen (z. B. den Unternehmensnamen). Wenn ein Datensatzfeld kein entsprechendes Datenbankfeld hat, geben Sie beim Zuordnen für ein solches Feld None an.
Hinweis: Nur bestimmte Felder werden verwendet, um auf einem Dokument nach Unternehmensinformationen zu suchen. Diese Felder haben ein kleines Schlosssymbol daneben. Sie können beim Konfigurieren der unternehmensbasierten Klassifizierung eigene benutzerdefinierte Felder hinzufügen, diese Felder werden jedoch nur zur Anzeige von Informationen verwendet.
- Um nach Unternehmensnamen zu suchen, von denen mehr als eine Variante existiert, verwenden Sie die Normalisierung, einen Prozess, der alle Namensvarianten auf einen Standardnamen reduziert. Geben Sie im Dialogfeld Data Set Column Mapping im Feld Normalization die erforderliche Art der Normalisierung an (weitere Informationen finden Sie unter Normalization of values in data sets).
Manchmal kann der Name eines Unternehmens im Voraus bekannt sein — zum Beispiel aus den Parametern der Datenquelle (d. h. dem Namen des Scan-Operators oder der E-Mail-Adresse des Absenders).
ABBYY FlexiCapture verfügt über eine Funktion, mit der der Lieferant und die Unternehmensuntergliederung vor der automatischen Erkennung explizit angegeben werden können.
Um die Unterteilungen ausdrücklich anzugeben, setzen Sie den Wert des Dokument-Registrierungsparameters fc_Predefined:PredefinedSectionVariantId auf den Bezeichner (Id) des entsprechenden Eintrags im Datensatz. In diesem Fall wird für den angegebenen Eintrag weiterhin die automatische Unternehmenserkennung durchgeführt. Als Ergebnis erhalten Sie den ausdrücklich angegebenen Unternehmensnamen und einen Konfidenzwert, der angibt, wie gut der ausdrücklich angegebene Name mit dem aus einem Bild extrahierten Namen übereinstimmt.
Diese Methode kann nur verwendet werden, wenn nur ein Abschnitt in einem Dokument mehrere Varianten aufweist.
Überprüfen und Bearbeiten der Ergebnisse der unternehmensbasierten Klassifizierung
Beim Klassifizieren von Dokumenten mithilfe einer Unternehmensdatenbank ist kein Training erforderlich, da das Programm Unternehmen in einer vordefinierten Liste von Unternehmensnamen nachschlägt. Klassifizierungsfehler können von Operatoren korrigiert werden. Wenn das Programm ein Dokument dem falschen Unternehmen zuordnet, kann der Operator den richtigen Unternehmensnamen auswählen und in der Datenbank speichern. Das Programm verwendet diese korrekten Informationen dann bei künftigen Klassifizierungen.
Damit der Operator Klassifizierungsfehler korrigieren kann, müssen Sie die Klassifizierungsergebnisse im Datenformular anzeigen und eine Schaltfläche hinzufügen, mit der die Feldsuche gestartet wird. Führen Sie dazu die folgenden Schritte aus:
- Erstellen Sie ein Servicefeld.
- Klicken Sie im Document Definition Editor auf Create Field → Service Field. Klicken Sie anschließend in den Feldeigenschaften auf die Registerkarte Data Source und wählen Sie Flexible Section Variant ID aus der Liste Source aus.
- Erstellen Sie alle Servicefelder, die zur Identifizierung des Unternehmens erforderlich sein können (z. B. IBAN und VATID).
- Erstellen Sie eine Datenbankprüfungsregel:
- Klicken Sie mit der rechten Maustaste auf die Gruppe, klicken Sie auf Properties…, dann auf die Registerkarte Rules und anschließend auf die Schaltfläche New Rule…
- Wählen Sie Database Check aus der Liste aus und klicken Sie auf OK.
- Wählen Sie im Feld Data source field, Data Sets aus. Wählen Sie dann im Feld Data Sets den erforderlichen Datensatz aus.
- Wählen Sie im Feld Field where to save record ID das Servicefeld aus, das Sie in Schritt 1 erstellt haben.
- Klicken Sie auf die Schaltfläche Add und geben Sie die erforderlichen Dokument- und Datenbankfelder an. Wenn sich die Werte der Dokument- und Datenbankfelder unterscheiden, wählen Sie die Such- und Ersetzungsoptionen aus (Enter value from database → If values are different).
Jetzt haben alle Felder, die vom Klassifikator für die unternehmensbasierte Klassifizierung erkannt werden, eine Region.
- Fügen Sie dem Datenformular eine Schaltfläche hinzu, die das Dialogfeld Look up öffnet:
- Klicken Sie mit der rechten Maustaste auf eine beliebige Stelle im Datenformular, an der Sie die Schaltfläche platzieren möchten, und klicken Sie im shortcut menu auf Insert Button.
- Wählen Sie auf der Registerkarte Format die Datenbankprüfungsregel aus, die Sie in Schritt 2 erstellt haben.
- Geben Sie auf der Registerkarte Position einen Namen für die Schaltfläche an.
Jetzt kann ein Verifizierungsoperator auf diese Schaltfläche im Datenformular klicken, um das Dialogfeld Look up zu öffnen.
Verbessern der unternehmensbasierten Klassifizierung
Angeben von Schlüsselwörtern und regulären Ausdrücken
Sie können Schlüsselwörter und reguläre Ausdrücke angeben, um die Unternehmenserkennung zu verbessern. Verwenden Sie für Schlüsselwörter strings, die ein Unternehmen eindeutig identifizieren, beispielsweise Daten aus VATID- oder IBAN-Feldern.
Bearbeiten von Unternehmensdatensätzen
Eine weitere Möglichkeit, die Unternehmenserkennung zu verbessern, besteht darin, die von ABBYY FlexiCapture gespeicherten Unternehmensdatensätze zu bearbeiten. Für jedes Unternehmen können mehrere Namensvarianten und Adressen angegeben werden. Dies kann vom Administrator mithilfe des Document Definition editor oder von einem Verifizierungsoperator durchgeführt werden.
Bitte beachten Sie, dass nur die von ABBYY FlexiCapture gespeicherten Unternehmensdatensätze geändert werden. Selbst wenn die Synchronisierung mit einer externen Datenbank (z. B. einem ERP-System) aktiviert ist, werden keine vom Administrator oder von Verifizierungsoperatoren vorgenommenen Änderungen an die externe Datenbank übertragen.
Operatoren können neue Datensätze hinzufügen und vorhandene Datensätze bearbeiten, wenn dies in der Document Definition zulässig ist.
Standardmäßig dürfen Operatoren keine Datensätze hinzufügen oder bearbeiten. So erlauben Sie Operatoren das Hinzufügen und Bearbeiten von Datensätzen:
- Klicken Sie im Document Definition editor auf Document Definition → Eigenschaften der Dokumentdefinition….
- Klicken Sie im sich öffnenden Dialogfeld auf die Registerkarte Data Sets.
- Wählen Sie einen Datensatz aus der Liste aus und klicken Sie auf die Schaltfläche Set Up…
- Wählen Sie die Optionen Operators can add records und Operators can edit records aus.
Um zu verhindern, dass Operatoren Datensätze hinzufügen und bearbeiten, deaktivieren Sie die beiden oben genannten Optionen.