Normalisierung von Werten in Datensätzen

Dieser Artikel beschreibt die verfügbaren Normalisierungstypen beim Hinzufügen von Spalten aus einer externen Datenbank zu einem Datensatz in einer FlexiCapture for Invoices Document Definition sowie deren Einstellungen. Die Normalisierung ändert das Format von Werten, die unterschiedlich geschrieben werden, aber im Wesentlichen dasselbe bedeuten. Sie sorgt für eine einheitliche Formatierung von Werten, damit diese miteinander verglichen werden können. So können beispielsweise die Adresse und der Name eines Unternehmens auf verschiedene Weise geschrieben werden. Da sich diese Werte auf dasselbe Unternehmen und dieselbe Adresse beziehen, müssen sie normalisiert werden, damit das Programm einen korrekten Vergleich durchführen kann. Der Normalisierungstyp kann für jede Spalte in einem Datensatz angegeben werden, wenn diese Spalten Spalten in einer externen Datenbank zugeordnet werden. Die Normalisierung wird nur auf Werte angewendet, die im Datensatz gespeichert sind (die Option Cache data muss in den Eigenschaften des Datensatzes aktiviert sein). Werte in der externen Datenbank werden nicht geändert. FlexiCapture for Invoices bietet zwei Arten der Normalisierung für Werte aus dem Datensatz.

Textnormalisierung

Diese Art der Normalisierung ist nützlich, wenn Zeichenfolgen wie Firmennamen und Adressen verglichen werden.

Leerraumzeichen (einschließlich Zeilenumbrüchen und Tabulatoren) sowie Trennsymbole werden durch normale Leerzeichen ersetzt.
Punkte, die als Trennzeichen verwendet werden (also Punkte zwischen Wörtern), werden durch Leerzeichen ersetzt, und Punkte in Abkürzungen werden entfernt.
Konjunktionssymbole (&, +, -, /, ~) werden normalisiert:
- Folgen von Wörtern, die mit einem einbuchstabigen Wort beginnen und durch dasselbe Konjunktionssymbol getrennt sind, werden zu einem einzelnen Wort zusammengefügt. Zum Beispiel wird R & D zu R&D.
- In allen anderen Fällen werden Konjunktionssymbole durch Leerzeichen ersetzt. Zum Beispiel wird Procter&Gamble zu Procter Gamble.
Doppelte Leerzeichen werden entfernt.
Eine vordefinierte Liste wird verwendet, um Wörter aufzuteilen. Zum Beispiel wird CoKG in Co KG aufgeteilt.
Leerzeichen im erkannten Text werden verwendet, um ihn in einzelne Wörter aufzuteilen.
Eine vordefinierte Liste wird verwendet, um Suffixe in jedem Wort zu ersetzen. Zum Beispiel können Sie das Suffix strasse durch das Suffix str ersetzen.
Wortfolgen werden anhand einer vordefinierten Liste automatisch ersetzt. Zum Beispiel können Sie das Wort Limited durch die Abkürzung Ltd ersetzen.

Die Normalisierungsparameter sind in der Datei Normalization.xml angegeben, die im Projektordner gespeichert ist.

Am Normalisierungsalgorithmus können in zukünftigen Versionen des Programms wesentliche Änderungen vorgenommen werden.

Ändern der Normalisierungseinstellungen

Sie können die Datei Normalization.xml ändern, nachdem der Datensatz erstellt wurde (separat für jeden Datensatz). Gehen Sie wie folgt vor, um die Standard-Normalisierungseinstellungen zu ändern:

Einstellungsdatei herunterladen

Laden Sie die Einstellungsdatei mit dem FCAdminTools-Befehl DownloadNormalizationSettings herunter.

Einstellungen bearbeiten

Nehmen Sie die entsprechenden Änderungen vor.

Einstellungsdatei hochladen

Laden Sie die Einstellungsdatei mit dem FCAdminTools-Befehl UpdateNormalizationSettings hoch.

Nach dem Aktualisieren der Einstellungsdatei müssen Sie den Datensatz aktualisieren. Weitere Informationen finden Sie unter Datensätze aktualisieren.

Alphanumerische Codenormalisierung

Dieser Normalisierungstyp ist nützlich, wenn alphanumerische Codes wie Steuer-IDs, Bankkonten und Postleitzahlen verglichen werden. Alle Zeichen außer Ziffern und Buchstaben werden entfernt, sodass Sie Werte vergleichen können, ohne Leerzeichen, Bindestriche, Schrägstriche und andere sonstige Zeichen zu berücksichtigen, die sie enthalten können. Wenn die Normalisierung angewendet wird, steht beim Zuordnen einer Datensatzspalte zu einer Spalte in einer externen Datenbank die Option Store normalized value zur Verfügung.

Wenn diese Option aktiviert ist, werden normalisierte Werte im Datensatz gespeichert.
Wenn diese Option deaktiviert ist, werden die ursprünglichen Werte aus der externen Datenbank in den Datensatz kopiert.

Diese Option wirkt sich nicht auf die Datenextraktion oder automatische Prüfungen aus, bestimmt jedoch, welcher Wert angezeigt wird, wenn ein Benutzer in einem Wörterbuch nach einem Eintrag sucht.

​Textnormalisierung

​Ändern der Normalisierungseinstellungen

​Alphanumerische Codenormalisierung

Textnormalisierung

Ändern der Normalisierungseinstellungen

Alphanumerische Codenormalisierung