- Der Erkennungsmodus (Fast / Balanced / Normal / Accurate) bestimmt die Erkennungsgeschwindigkeit und die Qualität der Textebene, die als Ergebnis erzeugt wird. Um einen Erkennungsmodus festzulegen, klicken Sie im Document Definition Editor auf Dokumentdefinition → Eigenschaften der Dokumentdefinition… → Recognition).
- Erkennungssprachen sind die Sprachen, die für die Erkennung verwendet werden. Um Erkennungssprachen festzulegen, klicken Sie im Document Definition Editor auf Document Definition → Eigenschaften der Dokumentdefinition… → Einstellung der Dokumentdefinition und dann in der Gruppe Länder und Sprachen auf Edit, um die gewünschten Sprachen auszuwählen. Hinweis: In FlexiCapture for Invoices sind Erkennungssprachen an die Ländereinstellungen gebunden. Wenn Sie der Gruppe Länder und Sprachen ein Rechnungsland hinzufügen, werden die zugehörigen Sprachen automatisch in den Einstellungen der Dokumentdefinition angezeigt. Rechnungsfelder werden während der Erkennung extrahiert.
Zum Erkennen und Erfassen von Feldern auf einer Rechnung kann das Programm Folgendes verwenden:
Arbeiten mit einem FlexiLayout
Geschäftsbereich und Vendor
Geschäftsbereich und Vendor
Folgendes kann zur Ermittlung des Vendors und des Geschäftsbereichs verwendet werden:
- Einstellungen der Document Definition: IBAN-, VATID- und NationalVATID-Formate sowie die zugehörigen Schlüsselwörter;
- Datensatz-Felder: IBAN, VATID, NationalVATID, Name, Straße, Stadt, PLZ.
Automatischer Algorithmus zur Unternehmensidentifikation
Der Detailgrad und die Qualität der in den Datensatz-Spalten eingetragenen Informationen haben einen erheblichen Einfluss auf die Erkennungsqualität. Um sicherzustellen, dass die Suchergebnisse so präzise wie möglich sind, beachten Sie Folgendes:- Die eindeutigen Unternehmenskennungen sind ausgefüllt Das Ausfüllen von Spalten mit eindeutigen Werten (VATID, NationalVATID, IBAN) erhöht die Wahrscheinlichkeit einer korrekten Erkennung erheblich, da diese Werte für jedes Unternehmen eindeutig sind.
- Keine mehrfach vorkommenden Firmendatensätze Wenn keine Datensätze mehrfach vorkommen, steigt die Wahrscheinlichkeit, dass das Unternehmen korrekt erkannt wird. Weitere Informationen zum Entfernen doppelter Datensätze finden Sie unter Doppelte Datensätze in der externen Datenbank entfernen.
- Es gibt keine irrelevanten Datensätze Veraltete oder ungültige Datensätze im Datensatz können dazu führen, dass das Unternehmen aufgrund zufälliger Ähnlichkeiten zwischen verschiedenen Feldwerten falsch erkannt wird.
- Alle Felder sind in jedem Unternehmensdatensatz ausgefüllt Geben Sie möglichst viele Informationen zu den Unternehmen an. Je mehr Felder im Datensatz ausgefüllt sind, desto höher ist die Wahrscheinlichkeit, dass das Unternehmen korrekt erkannt wird.
- Spalten mit mehreren Werten werden verwendet, um dieselben Informationen zu speichern, die unterschiedlich bezeichnet werden, und nicht völlig verschiedene Informationen Wenn ein Unternehmen beispielsweise mehrere Adressen hat, muss für jede davon ein separater Datensatz vorhanden sein, auch wenn alle anderen Felder dieselben Informationen enthalten. Weitere Informationen finden Sie unter Vorbereiten von Vendor- und Geschäftsbereich-Datenbanken.
- Suche nach eindeutigen Bezeichnern
- VATID,
- NationalVATID,
- IBAN.
- Buchstaben werden großgeschrieben,
- Leerzeichen sowie die folgenden Zeichen werden entfernt: ” . ”, ” , ”, ” — ”, ” / ”, ” **** ”.
- Suche nach Unternehmensname und Adresse
- Bildung von Hypothesen
Hypothesis-Filterung
Hypothesen werden anhand der Übereinstimmungszuverlässigkeit (Eintrag im Datensatz und dem Feldwert des Dokumentbilds) in folgende Kategorien unterteilt:- zuverlässiges Matching des Dokumentbildes;
- keine zuverlässige Übereinstimmung mit dem Dokumentbild.
- true — die Filterung ist aktiviert, und die endgültige Hypothese wird ausschließlich aus den verlässlichen Hypothesen ausgewählt (Standardwert);
- false — die Filterung ist deaktiviert, und die endgültige Hypothese wird ohne Berücksichtigung ihrer Zuverlässigkeit aus allen Hypothesen ausgewählt;
- Bei der Erkennung von Vendors werden unzuverlässige Hypothesen für Vendors nicht berücksichtigt. Wenn keine zuverlässigen Hypothesen vorliegen, wird kein Vendor erkannt.
- Bei der Erkennung von Geschäftsbereichen:
- wenn mindestens eine zuverlässige Hypothese gefunden wurde, werden keine unzuverlässigen Hypothesen berücksichtigt;
- wenn die in den Schritten 1 bis 3 ermittelte Menge von Hypothesen keine zuverlässige Hypothese enthält, wird der Flag-Wert ignoriert. Die endgültige Hypothese wird aus den unzuverlässigen Hypothesen ausgewählt.
- In der Regel gibt es deutlich weniger Datensätze zu Geschäftsbereichen eines Unternehmens als Vendor-Datensätze. Außerdem ändern sie sich wesentlich seltener, sodass sie sich leichter aktuell halten lassen. Daher erhöht die Erkennung einer zuverlässigen Hypothese die Wahrscheinlichkeit, dass auch die endgültige Hypothese korrekt ist. Die Erkennung eines Geschäftsbereichs ist jedoch auch dann wichtig, wenn keine zuverlässigen Hypothesen gefunden wurden, da der wichtigste Faktor für die Zuverlässigkeit des Erkennungsergebnisses die Bewertung der Zuverlässigkeit der Vendor-BU-Paare ist.
- Es gibt in der Regel deutlich mehr Vendor-Datensätze, und der Datensatz enthält mehr Spalten, weil Vendoren auf ihren Rechnungen mehr Informationen über ihr eigenes Unternehmen angeben als der Geschäftsbereich. Datensätze können zudem veraltete Informationen enthalten, sodass die Zuverlässigkeit der Hypothesenfilterung sowohl von der Qualität des Datensatzes als auch vom Typ des Verifizierungsszenarios abhängt.
Ergebnisse der Erkennung von Vendor und Geschäftsbereich
Die wichtigsten Ergebnisse der Erkennung von Vendor und Geschäftsbereich auf der Rechnung sind:- der Bezeichner des Vendor-Datensatzes im Datensatz „Vendors“
- der Bezeichner des Datensatzes des Geschäftsbereichs im BusinessUnits-Datensatz
- Name
- USt-IdNr.
- NationalVatID
- IBAN
- Straße
- PLZ
- Stadt
- Name
- USt-IdNr.
- Straße
- PLZ
- Stadt
So ändern Sie, wie das Programm den Vendor oder Geschäftsbereich erkennt
Je besser ein Vendor- oder Geschäftsbereich-Eintrag im Datensatz mit dem aus einem Rechnungsbild extrahierten Text übereinstimmt, desto genauer erkennt das Programm den Vendor oder Geschäftsbereich.Zunächst müssen Sie die Daten in der externen Datenbank ermitteln, die den Datensatz-Spalten entsprechen, anhand derer das Unternehmen auf einer Rechnung gefunden wird. Die externe Datenbank und der Datensatz müssen ordnungsgemäß verbunden sein (siehe Vendor- und Geschäftsbereich-Datenbanken verwenden).Wenn ein und dasselbe Unternehmen sowohl in der Liste der Vendors als auch in der Liste der Geschäftsbereiche vorkommt, müssen Sie für die jeweiligen Einträge in beiden Datensätzen dieselbe VATID angeben (auch wenn auf Rechnungen keine VATID vorhanden ist). Dadurch wird verhindert, dass das Programm den Vendor und den Geschäftsbereich falsch zuordnet.Um mögliche Abweichungen bei Feldwerten in Bildern auszugleichen, verwenden Sie:- Normalisierung der Spalten in Datensätzen (siehe Normalisierung von Werten in Datensätzen),
- Datensatzspalten mit mehreren Werten (siehe Spalten mit mehreren Werten in einem Datensatz).
Verwendung vorab festgelegter Vendor- und Geschäftsbereichswerte zusammen mit extrahierten Werten
Feldgruppe Rechnungskopf
Feldgruppe Rechnungskopf
InvoiceNumber, InvoiceDate
Der Kopf einer Rechnung enthält unter anderem die Felder InvoiceNumber und InvoiceDate.Diese Felder werden mithilfe von Schlüsselwörtern erkannt, die in den Spracheigenschaften der Dokumentdefinition angegeben sind. Der Vendor und der Geschäftsbereich werden zuerst erkannt und liefern Informationen über die Länder des Vendor und des Geschäftsbereichs. Die Länder bestimmen die Sprachen (die einem Land entsprechenden Sprachen werden in der Dokumentdefinition angegeben). Die Schlüsselwörter zum Auffinden von Feldern werden aus den Ländern des Vendor und des Geschäftsbereichs übernommen.Sie können die Art und Weise ändern, wie das Programm nach Feldregionen sucht, indem Sie Schlüsselwörter bearbeiten (siehe Keywords) und Training verwenden (siehe Training).Wie bestimmt das Programm, dass ein Dokument eine Rechnung ist?
FC bestimmt, ob ein Dokument eine Rechnung ist, wenn das FlexiLayout angewendet wird.Die unten aufgeführten Bedingungen weisen darauf hin, dass ein Dokument eine Rechnung ist. Nicht alle dieser Bedingungen müssen erfüllt sein, aber jede einzelne hat ein bestimmtes Gewicht.- Die Felder InvoiceNumber und InvoiceDate wurden erkannt.
- Schlüsselwörter aus dem Element InvoiceIdentifiers located wurden erkannt (siehe Keywords).
- Auf dem Dokument wurde ein Vendor oder ein Geschäftsbereich erkannt.
Feldgruppe Beträge
Feldgruppe Beträge
FCFORINVOICES erfasst die folgenden Felder aus einer Rechnung:
Informationen aus der Dokumentdefinition werden verwendet, um Summen und Steuersätze zu ermitteln:
Der Gesamtbetrag der Rechnung (Total) und die Währung der Rechnung (Currency) | Ja | Ja |
Steuern:
| Ja | Ja |
| Nein | Ja |
Zusätzliche Steuer (AdditionalCosts) | Ja | Ja |
- Im Land des Vendors geltende Steuersätze (Sie können diese auf der Registerkarte Steuersätze in den Ländereigenschaften angeben, siehe Land- und Spracheinstellungen)
- Schlüsselwörter für Steuersätze (Sie können diese auf der Registerkarte Schlüsselwörter in den Spracheigenschaften angeben. Siehe auch Schlüsselwörter).
- AmountTotalHighConfidenceLabels: Schlüsselwörter, die nur in der Nähe des Feldes Total vorkommen, z. B. „Diesen Betrag zahlen.“
- AmountTotalLowConfidenceLabels: Schlüsselwörter, die in der Nähe des Feldes Total vorkommen können, aber auch in der Nähe anderer Felder auftreten. So kann das Schlüsselwort „Total“ in der Nähe des Feldes Total erscheinen, aber auch in der Nähe eines Feldes, das das Gesamtgewicht aller Positionen auf einer Rechnung enthält.
- Zahlen, die in derselben Zeile oder derselben Spalte im Bild zwei- oder dreimal vorkommen. Solche Zahlen können auf Rechnungen, in denen keine Steuern angegeben sind, das Feld Total sein.
- Zahlen, die die Summe der Zahlen oberhalb von ihnen in derselben Spalte sind.
- Die größten Zahlen (nach Absolutwert) am Ende des Dokuments.
Feldgruppe „Bestellung“
Feldgruppe „Bestellung“
FCFORINVOICES kann alle Bestellnummern und die zugehörigen Summen aus der Rechnung extrahieren.Diese Funktion ist standardmäßig deaktiviert (siehe Bestellabgleich).Um Bestellnummern zu extrahieren, benötigen Sie einen Datensatz mit einer Liste möglicher Bestellnummern und der zugehörigen Summen (siehe PurchaseOrders-Datensatz).Das Feld Bestellung kann auf folgende Weise extrahiert werden:Weitere Informationen zu XML-Konfigurationsdateien finden Sie unter Einstellungen der Rechnungsverarbeitung in XML-Dateien bearbeiten.
- mit einem regulären Ausdruck;
- mit einem Datensatz, der mögliche Bestellnummern enthält (siehe PurchaseOrders-Datensatz).
- Verwenden Sie die Spalte VendorId des Datensatzes. In diesem Fall verwendet das Programm nur Bestellnummern des Vendors der Rechnung.
- Filtern Sie Bestellungen heraus, für die bereits eine Rechnung eingegangen ist, und fügen Sie dem Datensatz nur die Nummern von Bestellungen hinzu, für die noch keine Rechnung eingegangen ist.
Feldgruppe „Positionen (wiederholte Gruppe)“
Feldgruppe „Positionen (wiederholte Gruppe)“
FCFORINVOICES kann Rechnungspositionen aus Bildern extrahieren.Die Extraktion von Rechnungspositionen ist standardmäßig deaktiviert (siehe Zusätzliche Felder).Eine Liste der Felder, die das Programm automatisch extrahiert, finden Sie unter Erfasste Felder.FCFORINVOICES sucht zunächst im Bild nach einer Tabelle. Während dieser Suche verwendet es die Schlüsselwörter für Spaltenüberschriften, die für jede Sprache in den Eigenschaften der Dokumentdefinition angegeben sind. Schlüsselwörter für Spalten von Rechnungspositionen werden auch zur Klassifizierung von Positionen verwendet, d. h. zur Bestimmung des Typs jeder Spalte einer Rechnungsposition.Danach verwendet das Programm Informationen über erkannte Spalten und mathematische Ausdrücke, um Rechnungspositionen in der Tabelle der Rechnung zu finden.Abschließend durchsucht das Programm die Rechnungspositionen nach Feldern aus den Spalten.Training kann verwendet werden, um die Qualität der automatischen Extraktion von Positionen zu verbessern.
Verwendung neuronaler Netze
Einer der Hauptvorteile neuronaler Netze ist ihre Fähigkeit, selbstständig zu lernen: Neuronale Netze können komplexe Abhängigkeiten in Eingabedaten erkennen und daraus nützliche Verallgemeinerungen ableiten. Das Programm enthält zwei neuronale Netze, mit denen die folgenden Felder erfasst werden können:- InvoiceNumber
- InvoiceDate
- Gesamtbetrag
- Vendor \ Name
- Vendor \ Adresse
- Geschäftsbereich \ Name
- Geschäftsbereich \ Adresse
- Bestellungen \ Bestellnummer
- LineItems:
- OrderNumber
- OrderDate
- Position
- ArticleNumber
- Beschreibung
- Menge
- Maßeinheit
- Stückpreis
- Nettogesamtpreis
- VATPercentage
Deaktivieren der neuronalen Netzwerke
- Öffnen Sie den Document Definition Editor.
- Klicken Sie auf Document Definition Properties… → Document Definition Settings → Additional Fields and Features.
- Deaktivieren Sie die Option Thorough extraction of invoice line items.
- Öffnen Sie den Document Definition Editor.
- Klicken Sie auf Document Definition Properties… → Document Definition Settings → Additional Fields and Features.
- Deaktivieren Sie die Option Thorough extraction of invoice header fields.
Kombinieren der Ergebnisse der Felderkennung
Wie das Programm die Ergebnisse der Felderkennung kombiniert oder das beste Ergebnis auswählt, hängt vom jeweiligen Feld ab. In der Regel haben die Ergebnisse des jeweiligen neuronalen Netzwerks Vorrang. Ausnahmen von dieser Regel sind Suchen auf Basis von Datensätzen und Suchen mit regulären Ausdrücken, die für bestimmte Kundendokumente erstellt wurden. Feldgruppe Rechnungskopf Bei den folgenden Feldern haben die vom neuronalen Netzwerk ermittelten Ergebnisse immer Vorrang:- Rechnungsnummer
- Rechnungsdatum
- Gesamtbetrag
- Name
- VATID (ABN)
- Adresse
