Zum Hauptinhalt springen
Die Detailtiefe und Qualität der Datenkatalogeinträge beeinflussen die Genauigkeit der Unternehmenserkennung maßgeblich. Je besser die Datensätze des ausstellenden und des empfangenden Unternehmens mit dem aus einem Dokumentbild extrahierten Text übereinstimmen, desto präziser werden die entsprechenden Unternehmen erkannt.

Best Practices für eine präzise Erkennung

Um sicherzustellen, dass die Erkennungsergebnisse so genau wie möglich sind, achten Sie darauf, dass:
  • Eindeutige Unternehmenskennungen ausgefüllt sind. Das Ausfüllen der Spalten mit eindeutigen Werten (Steuerliche Identifikationsnummer (TIN), nationale Steuer-ID, IBAN) erhöht die Wahrscheinlichkeit einer korrekten Erkennung erheblich, da diese Werte für alle Unternehmen eindeutig sind.
  • Keine doppelten Unternehmensdatensätze vorhanden sind. Das Fehlen doppelter Datensätze erhöht die Wahrscheinlichkeit, das Unternehmen korrekt zu erkennen.
  • Keine fachfremden Datensätze vorhanden sind. Veraltete oder ungültige Datensätze im Datenkatalog können aufgrund zufälliger Ähnlichkeiten zwischen verschiedenen Feldwerten dazu führen, dass das Unternehmen falsch erkannt wird.
  • Für jeden Unternehmensdatensatz alle Felder ausgefüllt sind. Geben Sie möglichst präzise Informationen zu den Unternehmen an. Je genauer die Informationen sind, desto höher ist die Wahrscheinlichkeit, die Unternehmen korrekt zu erkennen.

Prozess der Unternehmenserkennung

Die Unternehmenserkennung umfasst die folgenden Schritte: Die Werte der folgenden Felder gelten als eindeutige Unternehmenskennungen:
  • Steuer-ID
  • Nationale Steuer-ID
  • IBAN
Eine „Classify By Company“-Aktivität durchsucht das Dokumentbild nach den Werten der oben aufgeführten Felder mithilfe von Schlüsselwörtern und regulären Ausdrücken. Wenn keine angegeben sind, wird dieser Schritt übersprungen. Die auf einem Dokumentbild erkannten Werte für Steuer-ID, Nationale Steuer-ID und IBAN werden zum Abfragen des Datenkatalogs verwendet. Anschließend werden die aus dem Datenkatalog erhaltenen Werte für Steuer-ID, Nationale Steuer-ID und IBAN mit den auf dem Bild erkannten Werten abgeglichen (es wird eine exakte Übereinstimmung verwendet). Zum Abgleich werden die Werte wie folgt normalisiert:
  • Buchstaben werden in Großbuchstaben umgewandelt
  • Leerzeichen und die folgenden Zeichen werden entfernt: ”.”, ”,”, ””, ”/”, ”****“
Der gesamte auf dem Dokumentbild erkannte Text wird verwendet, um den Datenkatalog zu durchsuchen. Anschließend werden die aus dem Datenkatalog erhaltenen Werte für Name, Straße, Postleitzahl und Stadt mit den auf dem Bild erkannten Werten abgeglichen (es wird eine exakte Übereinstimmung verwendet).
Hinweis: Um die bestmöglichen Suchergebnisse zu erzielen, stellen Sie sicher, dass die entsprechenden Spalten im Datenkatalog ausgefüllt sind. Firmenname und Adressangaben sind besonders wichtig in Fällen, in denen das Unternehmen nicht anhand einer Steuer-ID, einer nationalen Steuer-ID oder einer IBAN identifiziert werden kann.

Schritt 3: Generierung von Hypothesen

Basierend auf den in Schritt 1 und 2 gefundenen Unternehmen wird eine Reihe von Hypothesen erzeugt. Eine Classify By Company-Aktivität bewertet diese Hypothesen und wählt fünf Datensätze für das ausstellende Unternehmen und fünf Datensätze für das empfangende Unternehmen aus, die am zuverlässigsten mit den auf dem Dokumentbild erkannten Feldwerten übereinstimmen. Aus diesen Datensätzen werden 25 Paare gebildet, wobei jedes Paar als eigene Hypothese behandelt wird. Ein trainiertes Modell bewertet anschließend die Hypothesen nach Zuverlässigkeit und wählt das am besten passende Aussteller–Empfänger-Paar aus.
Hinweis: Selbst wenn die Anzahl der empfangenden Unternehmen sehr klein ist (zum Beispiel wenn es nur ein einziges empfangendes Unternehmen gibt), wird die Verwendung des Datenkatalogs Document Receiver Companies dennoch empfohlen, da so verhindert wird, dass ein empfangendes Unternehmen fälschlicherweise als ausstellendes Unternehmen erkannt wird.
Wenn im Datenkatalog Document Issuer Companies festgelegt ist, dass die Issuer Company ID von der Receiver Company ID abhängt, werden die Hypothesen auf Grundlage dieser Korrelation generiert (siehe Looking for a pair of companies).

Ergebnisse der Erkennung von ausstellendem und empfangendem Unternehmen im Dokument

Als Ergebnis der Erkennung des ausstellenden und des empfangenden Unternehmens in einem Dokument werden die folgenden Kennungen ermittelt:
  • Die Kennung des ausstellenden Unternehmens im Datenkatalog „Document Issuer Companies“
  • Die Kennung des empfangenden Unternehmens im Datenkatalog „Document Receiver Companies“
Hinweis: Wenn im Datenkatalog „Document Issuer Companies“ festgelegt ist, dass die Issuer Company ID von der Receiver Company ID abhängt (siehe Looking for a pair of companies), enthält das Ergebnis der Erkennung des ausstellenden Unternehmens die Issuer Company ID, die der Receiver Company ID entspricht.