Zum Hauptinhalt springen
Vantage kann extrahierte Daten normalisieren, um eine einheitliche Darstellung sicherzustellen. Die folgenden Datentypen können normalisiert werden: Um aus einem Feld extrahierte Daten zu normalisieren, müssen Sie dessen Datentyp angeben. Gehen Sie dazu wie folgt vor:
  1. Klicken Sie im Datenformular auf die Schaltfläche neben dem Feld.
  2. Wählen Sie im Dialogfeld Feldoptionen den gewünschten Datentyp aus der Dropdown-Liste aus.
Damit die Normalisierung funktioniert, wählen Sie unbedingt die richtigen zusätzlichen Eigenschaften für jedes Feld aus, damit alle zu normalisierenden Daten extrahiert werden. Sie können die zusätzlichen Eigenschaften eines Felds ändern, indem Sie im Dialogfeld Feldoptionen auf die Schaltfläche Erweitert klicken. Weitere Informationen finden Sie unter Zusätzliche Eigenschaften des Textfelds. Um einen normalisierten Wert anzuzeigen, bewegen Sie den Mauszeiger über das entsprechende Feld: Beispiel für Normalisierung

Normalisierung von Datumsangaben

Extrahierte Datumsangaben können Datum und Uhrzeit in beliebigem Format enthalten. Die folgenden Zeichen können als Trennzeichen verwendet werden: der Punkt (.), das Leerzeichen ( ), der Bindestrich (-), der Backslash () und der Schrägstrich (/). Bei der Normalisierung von Datumsangaben wandelt Vantage extrahierte Datumswerte in das standardisierte ISO-8601-Format um:
  • YYYY-MM-DD für Datum: Jahr gefolgt von Monat, gefolgt von Tag.
  • HH:MM:SS für Uhrzeit: Stunden gefolgt von Minuten, gefolgt von Sekunden.

Beispiele für normalisierte Datumsangaben

Extrahierte DatenNormalisierte Daten
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 oder 2022-11-02
Hinweis: Wenn sowohl die Datumsformate Tag-Monat-Jahr als auch Monat-Tag-Jahr für das Datum aktiviert sind, kann Vantage das Datum möglicherweise nicht eindeutig normalisieren. In diesem Fall erhalten Sie die Auswahl zwischen zwei möglichen Daten.
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
Hinweis: Ausgeschriebene Datumsangaben werden nur normalisiert, wenn sie auf Englisch verfasst sind und in den Skill-Einstellungen Englisch ausgewählt ist.
Vantage kann Datumsangaben aus folgenden Gründen möglicherweise nicht normalisieren:
  • Das Datum ist unvollständig, zum Beispiel: „4:39 am“ (Zeitangaben werden nur normalisiert, wenn sie zusammen mit dem Datum extrahiert werden).
  • Es werden Zeitadverbien statt exakter Daten verwendet, zum Beispiel: „last month“, „a few days ago“.
  • Neben dem Datum oder der Uhrzeit stehen zusätzliche Wörter oder Zeichen, zum Beispiel: „2016/06/15 22“.
  • Es werden unübliche Datumsdarstellungen verwendet, zum Beispiel: „14 Jumada Al-Awwal 1445“.

Normalisierung von Zahlen

Extrahierte Zahlen können Ziffern, Dezimaltrennzeichen und das Prozentzeichen (%) enthalten. Die folgenden Zeichen können als Dezimaltrennzeichen verwendet werden: der Punkt (.), das Komma (,), der Bindestrich (-), das Gleichheitszeichen (=) und das Leerzeichen ( ). Die folgenden Zeichen können als Tausendertrennzeichen (Millionen usw.) verwendet werden: der Punkt (.), das Komma (,), das einfache Anführungszeichen (’) und das Leerzeichen ( ). Zahlen mit westlicher oder indischer Zifferngruppierung können normalisiert werden. Das westliche System gruppiert Ziffern von rechts nach links in Dreiergruppen und verwendet Kommas zur Trennung von Tausendern und Millionen. Das indische System verwendet ebenfalls Kommas; es gruppiert zunächst die drei letzten Ziffern von rechts, geht dann jedoch dazu über, Ziffern in Zweiergruppen für Zehntausende, Lakh, zehn Lakh, Crore, zehn Crore usw. zu gruppieren. Bei der Normalisierung von Zahlen in einem der beiden Nummerierungssysteme analysiert Vantage extrahierte strings numerischer Daten und konvertiert sie in das standardisierte Format, wie in der Tabelle unten gezeigt, wobei der Punkt (.) zur Trennung von Ganzzahl- und Dezimalteil verwendet wird.

Beispiele für normalisierte Zahlen

Extrahierte DatenNormalisierte Daten
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 oder 1
Hinweis: Wenn der Teil nach dem Punkt drei Ziffern hat, müssen Sie einen der beiden möglichen Werte wählen und entscheiden, ob der Punkt Tausender trennt oder die Ganzzahl vom Dezimalteil.
12,345.678 %12345.678
1,23,45,67,890 (indisches Zahlensystem)1234567890
twenty-first21
Hinweis: Ausgeschriebene Zahlen werden nur normalisiert, wenn sie auf Englisch verfasst sind und Englisch in den Skill-Einstellungen ausgewählt ist. Vantage kann aus folgenden Gründen möglicherweise keine Zahlen normalisieren:
  • Neben der Zahl stehen zusätzliche Wörter oder Zeichen, zum Beispiel: „EURO12,345.678“ oder „5 kilos“.
  • Es gibt eine unregelmäßige Anzahl von Ziffern zwischen den Dezimal- und Ganzzahlteilen bzw. den Dezimal- und Tausenderteilen, zum Beispiel: „123,456,7890“. In diesem Fall darf der Dezimalteil höchstens 3 Ziffern enthalten. Außerdem gilt: Wenn „123,456,789“ extrahiert wird, ist der normalisierte Wert „123456789“, und wenn „123,456,78“ extrahiert wird, ist der normalisierte Wert „123456.78“.
  • Es werden unregelmäßige Zahldarstellungen verwendet.

Normalisierung von Geldbeträgen

Ein Geldbetrag kann sowohl einen Zahlenwert als auch ein Währungssymbol enthalten. Das Währungssymbol kann entweder vor oder nach dem Betrag stehen. Bei der Normalisierung von Geldbeträgen analysiert Vantage die extrahierten monetären string-Werte (wie Währungssymbole, Dezimal- oder Zifferntrennzeichen) und konvertiert sie in ein standardisiertes Währungsformat, um Einheitlichkeit bei Währungssymbolen und Dezimaltrennzeichen sicherzustellen: Das Währungssymbol steht zuerst, gefolgt von dem Betrag, der als Zahl normalisiert ist. Vantage kann die Währungen verschiedener Länder erkennen, die unterschiedlich bezeichnet werden (zum Beispiel kann Euro mit E, € oder euros dargestellt werden). Der normalisierte Wert für Currency entspricht exakt dem Währungssymbol oder dem Namen im extrahierten Text.

Beispiele für normalisierte Geldbeträge

Extrahierte DatenNormalisierte Daten
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
Hinweis: Ausgeschriebene Beträge werden nur normalisiert, wenn sie auf Englisch vorliegen und in den Skill-Einstellungen Englisch ausgewählt ist.
Vantage kann Geldbeträge möglicherweise nicht normalisieren, wenn ungültige Wörter zur Bezeichnung einer Währung verwendet werden, zum Beispiel: „12 ttt“.

Siehe auch

Textfeld