Erkennung der Hauptfelder - ABBYY Documentation

In diesem Artikel wird beschrieben, wie die Hauptfelder einer Rechnung erkannt und erfasst werden. Das Programm beginnt mit der Verarbeitung einer Rechnung, indem es den Text entsprechend den Einstellungen der Dokumentdefinition erkennt:

Erkennungsmodus (Fast, Balanced, Normal oder Accurate) bestimmt die Erkennungsgeschwindigkeit und die Qualität der resultierenden Textebene. Um einen Erkennungsmodus festzulegen, klicken Sie im Document Definition Editor auf Document Definition → Eigenschaften der Dokumentdefinition… → Recognition.
Erkennungssprachen sind die Sprachen, die für die Erkennung verwendet werden. Um sie festzulegen, klicken Sie im Document Definition Editor auf Document Definition → Eigenschaften der Dokumentdefinition… → Einstellung der Dokumentdefinition und dann in der Gruppe Länder und Sprachen auf Edit, um die gewünschten Sprachen auszuwählen.

In FlexiCapture for Invoices sind Erkennungssprachen an die Ländereinstellungen gebunden. Wenn Sie der Gruppe Länder und Sprachen ein Rechnungsland hinzufügen, werden die zugehörigen Sprachen automatisch in den Einstellungen der Dokumentdefinition angezeigt. Rechnungsfelder werden während der Erkennung extrahiert.

Zum Erkennen und Erfassen von Feldern auf einer Rechnung kann das Programm Folgendes verwenden:

Ein FlexiLayout
Neuronale Netze

Beide Methoden werden unten beschrieben, zusammen mit dem Algorithmus, der die mit beiden Methoden erzielten Ergebnisse kombiniert oder das beste Ergebnis auswählt.

Arbeiten mit einem FlexiLayout

Geschäftsbereich und Vendor

Folgendes kann zur Ermittlung des Vendors und des Geschäftsbereichs verwendet werden:

Einstellungen der Document Definition: IBAN-, VATID- und NationalVATID-Formate sowie die zugehörigen Schlüsselwörter.
Datensatz-Felder: IBAN, VATID, NationalVATID, Name, Straße, Stadt, PLZ.

Weitere Informationen zu den Spalten BusinessUnits und Vendors in den Datensätzen und ihrer Verwendung finden Sie unter BusinessUnits-Datensatz und Vendors-Datensatz.

Automatischer Algorithmus zur Unternehmensidentifikation

Der Detailgrad und die Qualität der in den Datensatz-Spalten eingetragenen Informationen haben einen erheblichen Einfluss auf die Erkennungsqualität. Um sicherzustellen, dass die Suchergebnisse so präzise wie möglich sind, beachten Sie Folgendes:

Die eindeutigen Unternehmenskennungen sind ausgefüllt. Das Ausfüllen von Spalten mit eindeutigen Werten (VATID, NationalVATID, IBAN) erhöht die Wahrscheinlichkeit einer korrekten Erkennung erheblich, da diese Werte für jedes Unternehmen eindeutig sind.
Keine mehrfach vorkommenden Firmendatensätze. Wenn keine Datensätze mehrfach vorkommen, steigt die Wahrscheinlichkeit, dass das Unternehmen korrekt erkannt wird. Weitere Informationen finden Sie unter Doppelte Datensätze in der externen Datenbank entfernen.
Es gibt keine irrelevanten Datensätze. Veraltete oder ungültige Datensätze im Datensatz können dazu führen, dass das Unternehmen aufgrund zufälliger Ähnlichkeiten zwischen verschiedenen Feldwerten falsch erkannt wird.
Alle Felder sind in jedem Unternehmensdatensatz ausgefüllt. Geben Sie möglichst viele Informationen zu den Unternehmen an. Je mehr Felder ausgefüllt sind, desto höher ist die Wahrscheinlichkeit, dass das Unternehmen korrekt erkannt wird.
Spalten mit mehreren Werten werden verwendet, um dieselben Informationen zu speichern, die unterschiedlich bezeichnet werden, und nicht völlig verschiedene Informationen. Wenn ein Unternehmen beispielsweise mehrere Adressen hat, muss für jede davon ein separater Datensatz vorhanden sein, auch wenn alle anderen Felder dieselben Informationen enthalten. Weitere Informationen finden Sie unter Vorbereiten von Vendor- und Geschäftsbereich-Datenbanken.

Der automatische Algorithmus zur Erkennung von Vendor und Geschäftsbereich umfasst die folgenden Schritte:

Suche nach eindeutigen Unternehmensbezeichnern

Die folgenden Felder gelten als eindeutige Unternehmensbezeichner:

VATID
NationalVATID
IBAN

FlexiCapture for Invoices durchsucht das Dokumentbild nach den oben aufgeführten Werten. In den Eigenschaften der Dokumentdefinition (Registerkarte Einstellung der Dokumentdefinition, Gruppe Länder und Sprachen) werden die Formate (Formate-Registerkarte) und Schlüsselwörter (Schlüsselwörter-Registerkarte) für VATID, NationalVATID und IBAN für jedes Land mithilfe regulärer Ausdrücke festgelegt.

Korrekt ausgefüllte Schlüsselwörter und Bezeichnerformate verbessern die Erkennungsqualität erheblich.

Das Programm sucht im Bild nach exakten Übereinstimmungen für solche Felder. Erweiterte reguläre Ausdrücke können dabei auch mögliche Erkennungsfehler berücksichtigen. Weitere Informationen finden Sie unter Erweiterte reguläre Ausdrücke.

ABBYY FlexiCapture for Invoices bietet vordefinierte reguläre Ausdrücke, Sie können bei Bedarf jedoch eigene erstellen. Navigieren Sie dazu zur Gruppe Länder und Sprachen auf der Registerkarte Einstellung der Dokumentdefinition, wählen Sie das entsprechende Land aus und klicken Sie auf Bearbeiten….

Erkannte Werte werden wie folgt normalisiert:

Buchstaben werden in Großbuchstaben umgewandelt.
Leerzeichen und die folgenden Zeichen werden entfernt: ., ,, —, /, \.

Wenn das Buchstabenpräfix eines Feldes mithilfe eines regulären Ausdrucks in den Ländereigenschaften auf der Registerkarte Formate angegeben ist, wird das erkannte Präfix durch das primäre Präfix ersetzt (das ebenfalls auf der Registerkarte Formate festgelegt ist). So kann zum Beispiel der Bezeichner DE12345 als OE12345 erkannt werden; das erkannte Präfix OE wird dann durch das korrekte Präfix DE ersetzt.Die in einem Dokumentbild erkannten Felder VATID, NationalVATID und IBAN werden verwendet, um den Datensatz abzufragen. Die aus dem Datensatz erhaltenen Spaltenwerte für VATID, NationalVATID und IBAN werden auf dieselbe Weise normalisiert wie die im Bild erkannten Werte und anschließend mit den im Bild erkannten normalisierten Werten abgeglichen (mithilfe exakter Übereinstimmung).

Suche nach Firmenname und Adresse

Eine Abfrage, die den gesamten Dokumenttext verwendet, um nach den Datensätzen zu suchen, die am besten dazu passen, wird an den Datensatz gesendet.Die im Bild erkannten Werte Name, Street, ZIP und City werden mit den entsprechenden Werten im Datensatz abgeglichen.

Um die bestmöglichen Suchergebnisse für Namen und Unternehmen zu erhalten, stellen Sie sicher, dass die entsprechenden Spalten im Datensatz ausgefüllt sind. Firmenname und Adressinformationen sind besonders wichtig, wenn das Unternehmen nicht über VATID, NationalVATID oder IBAN identifiziert werden kann.

Hypothesenbildung

Die in den vorherigen Schritten gefundenen Unternehmen werden verwendet, um eine Menge von Hypothesen zu bilden. ABBYY FlexiCapture for Invoices wertet diese Hypothesen aus und wählt die 5 Vendor-Datensätze und 5 Geschäftsbereich-Datensätze aus, die am zuverlässigsten mit den Feldwerten im Dokumentbild übereinstimmen. Diese Datensätze bilden 25 Vendor-Geschäftsbereich-Paare, wobei jedes Paar als separate Hypothese behandelt wird. Anschließend bewertet ein neuronaler Netzwerkalgorithmus die Hypothesen nach Zuverlässigkeit, und das am besten passende Vendor-BU-Paar wird zur endgültigen Hypothese und zum Ergebnis der Vendor- und Geschäftsbereichserkennung.

Wenn nur die Vendor-Datenbank verbunden ist, kann die Qualität der Auswertung der Vendor-BU-Paare negativ beeinflusst werden. Wir empfehlen, eine Geschäftsbereichsdatenbank zu verbinden, auch wenn keine Geschäftsbereichserkennung erforderlich ist. Weitere Informationen finden Sie unter Verwenden von Vendor- und Geschäftsbereichsdatenbanken.

Wenn es nur sehr wenige Geschäftsbereiche gibt (zum Beispiel einen), wirkt sich das Verbinden einer solchen Datenbank nicht wesentlich auf die Auswertung aus. Es kann jedoch die Erkennungsqualität verbessern, wenn ein Geschäftsbereich fälschlicherweise als Vendor erkannt wird.

Hypothesenfilterung

Hypothesen werden anhand der Zuverlässigkeit des Matchings (zwischen dem Datensatz im Datensatz und dem Feldwert im Dokumentbild) wie folgt unterteilt:

Zuverlässiges Matching mit dem Dokumentbild
Unzuverlässiges Matching mit dem Dokumentbild

Je nach Verifizierungsszenario können Sie entscheiden, ob die Zuverlässigkeit von Hypothesen bei der Erkennung des Vendors und des Geschäftsbereichs berücksichtigt werden soll. Damit ABBYY FlexiCapture for Invoices die endgültige Hypothese ausschließlich aus zuverlässigen Hypothesen auswählt, verwenden Sie das Registry-Flag InvoiceReader/ShouldFilterUnsureCompanyHypotheses, das auf Folgendes gesetzt werden kann:

true — die Filterung ist aktiviert, und die endgültige Hypothese wird ausschließlich aus den zuverlässigen Hypothesen ausgewählt (Standard).
false — die Filterung ist deaktiviert, und die endgültige Hypothese wird unabhängig von ihrer Zuverlässigkeit aus allen Hypothesen ausgewählt.

Die Hypothesenfilterung funktioniert für Vendors und Geschäftsbereiche unterschiedlich:

Bei der Erkennung von Vendors werden keine unzuverlässigen Hypothesen berücksichtigt. Wenn keine zuverlässigen Hypothesen vorliegen, wird kein Vendor erkannt.
Bei der Erkennung von Geschäftsbereichen:
- Wenn mindestens eine zuverlässige Hypothese gefunden wurde, werden keine unzuverlässigen Hypothesen berücksichtigt.
- Wenn die Hypothesenmenge keine einzige zuverlässige Hypothese enthält, wird der Flag-Wert ignoriert, und die endgültige Hypothese wird aus den unzuverlässigen Hypothesen ausgewählt.

Das liegt an den Unterschieden zwischen den Datensätzen für Vendors und Geschäftsbereiche:

Es gibt normalerweise deutlich weniger Geschäftsbereich-Datensätze als Vendor-Datensätze. Außerdem ändern sie sich viel seltener und lassen sich daher leichter aktuell halten. Deshalb erhöht die Erkennung einer zuverlässigen Hypothese die Wahrscheinlichkeit, dass die endgültige Hypothese korrekt ist. Die Erkennung eines Geschäftsbereichs ist jedoch auch dann wichtig, wenn keine zuverlässigen Hypothesen gefunden wurden, da der wichtigste Faktor für die Zuverlässigkeit des Erkennungsergebnisses die Zuverlässigkeitsbewertung der Vendor-BU-Paare ist.
Es gibt normalerweise deutlich mehr Vendor-Datensätze, und der Datensatz enthält mehr Spalten, weil Vendors auf ihren Rechnungen mehr Informationen über ihr eigenes Unternehmen angeben als über den Geschäftsbereich. Datensätze können außerdem veraltete Informationen enthalten, sodass die Filterung unzuverlässiger Hypothesen sowohl von der Qualität des Datensatzes als auch vom Typ des Verifizierungsszenarios abhängt.

Um die Wahrscheinlichkeit zu erhöhen, zuverlässige Hypothesen zu erkennen, halten Sie Datensätze aktuell und erfassen Sie möglichst viele Informationen über Vendors und Geschäftsbereiche.

Ergebnisse der Erkennung von Vendor und Geschäftsbereich

Die wichtigsten Ergebnisse der Erkennung von Vendor und Geschäftsbereich auf der Rechnung sind:

Der Bezeichner des Vendor-Datensatzes im Vendors-Datensatz
Der Bezeichner des Geschäftsbereich-Datensatzes im BusinessUnits-Datensatz

Wenn im Vendors-Datensatz festgelegt ist, dass Id von BusinessUnitId abhängt (siehe Vendors data set), enthält das Ergebnis der Vendor-Erkennung die Id, die zu BusinessUnitId gehört.

Ein Geschäftsbereich kann unter Umständen unzuverlässig erkannt werden. In diesem Fall wird der Registrierungsparameter des Dokuments fc_Predefined:InvoiceIsVendorSuspicious (fc_Predefined:InvoiceIsBusinessUnitSuspicious) auf true gesetzt. Die Regionen der folgenden Felder können als Ergebnis der Erkennung von Vendor und Geschäftsbereich gefunden werden:

Für den Vendor: Name, VatID, NationalVatID, IBAN, Street, Zip, City.
Für den Geschäftsbereich: Name, VatID, Street, Zip, City.

Anhand der Positionen dieser Regionen im Bild können Sie genau erkennen, wo das Programm die Felder der Feldgruppen Vendor und Geschäftsbereich gefunden hat, wodurch es den Vendor und den Geschäftsbereich erkennen konnte.

Wenn die Feldwerte für IBAN und VATID im Vendors-Datensatz fehlen, können Schlüsselwörter und das Format verwendet werden, um die entsprechenden Werte auf dieselbe Weise zu erkennen wie Bankdaten erkannt werden (sofern der entsprechende Vendor gefunden wurde).

Die Suche nach einer Feldregion kann durch Training oder durch Anwenden eines zusätzlichen FlexiLayout geändert werden (siehe Capturing additional invoice fields). Dies hat keinen Einfluss auf die Erkennung von Vendor und Geschäftsbereich, kann jedoch die Position der Feldregionen in diesen Feldgruppen nach dem Matching der Dokumentdefinition mit den Rechnungen beeinflussen.

Ein wichtiges Ergebnis der Erkennung von Vendor und Geschäftsbereich ist, dass Informationen über ihre jeweiligen Länder aus dem Feld CountryCode der im Datensatz gefundenen Datensätze abgerufen werden. Diese Informationen werden dann verwendet, um Schlüsselwörter und Steuersätze auszuwählen, andere Rechnungsfelder zu erfassen und als Bedingung für das Ausführen von Validierungsregeln für die Rechnung.

So ändern Sie, wie das Programm den Vendor oder Geschäftsbereich ermittelt

Je besser ein Vendor- oder Geschäftsbereichs-Datensatz im Datensatz mit dem aus einem Rechnungsbild extrahierten Text übereinstimmt, desto genauer ermittelt das Programm den Vendor oder Geschäftsbereich. Ermitteln Sie zunächst die Daten in der externen Datenbank, die den Datensatzspalten entsprechen, die zum Auffinden des Unternehmens auf einer Rechnung verwendet werden. Die externe Datenbank und der Datensatz müssen korrekt verbunden sein. Weitere Informationen finden Sie unter Verwenden von Vendor- und Geschäftsbereichsdatenbanken. Wenn dasselbe Unternehmen sowohl in der Vendor-Liste als auch in der Liste der Geschäftsbereiche vorkommt, geben Sie für die entsprechenden Datensätze in beiden Datensätzen dieselbe VATID an (auch wenn auf Rechnungen keine VATID vorhanden ist). Dadurch wird verhindert, dass das Programm Vendor und Geschäftsbereich falsch ermittelt. Um mögliche Abweichungen bei Feldwerten auf Bildern auszugleichen, verwenden Sie:

Normalisierung von Datensatzspalten (siehe Normalisierung von Werten in Datensätzen)
Datensatzspalten mit mehreren Werten (siehe Spalten mit mehreren Werten in einem Datensatz)

Verwenden vordefinierter Vendor- und Geschäftsbereichswerte

Der Vendor oder Geschäftsbereich des Unternehmens auf der Rechnung kann anhand der Quelle der Rechnung im Voraus bestimmt werden (anhand des Namens des Scanning Operators oder der E-Mail-Adresse des Absenders der Nachricht). Sie können den Vendor oder Geschäftsbereich vor der automatischen Erkennung explizit festlegen. Setzen Sie dazu den Wert des Registrierungsparameters des Dokuments fc_Predefined:InvoicePredefinedVendorId (fc_Predefined:InvoicePredefinedBusinessUnitId) auf den Bezeichner (Id) eines Eintrags im Vendors- oder BusinessUnits-Datensatz. Dies verhindert die automatische Erkennung des Vendors oder Geschäftsbereichs nicht. Zusätzlich zum vordefinierten Vendor oder Geschäftsbereich erhalten Sie daher einen Konfidenzwert (der angibt, wie gut die vordefinierten Werte mit den aus dem Bild extrahierten Werten übereinstimmen) sowie die Regionen der Felder aus den Feldgruppen Vendor und Geschäftsbereich.

Feldgruppe Rechnungskopf

InvoiceNumber und InvoiceDate

Der Kopf einer Rechnung enthält unter anderem die Felder InvoiceNumber und InvoiceDate. Diese Felder werden mithilfe von Schlüsselwörtern erkannt, die in den Spracheigenschaften der Dokumentdefinition angegeben sind. Der Vendor und der Geschäftsbereich werden zuerst erkannt und liefern Informationen über die Länder des Vendor und des Geschäftsbereichs. Die Länder bestimmen die Sprachen (die einem Land entsprechenden Sprachen werden in der Dokumentdefinition angegeben). Die Schlüsselwörter zum Auffinden von Feldern werden aus den Ländern des Vendor und des Geschäftsbereichs übernommen. Sie können die Art und Weise ändern, wie das Programm nach Feldregionen sucht, indem Sie Schlüsselwörter bearbeiten (siehe Schlüsselwort) und Training verwenden (siehe Training ABBYY FlexiCapture for Invoices).

Wie das Programm bestimmt, dass ein Dokument eine Rechnung ist

FlexiCapture bestimmt, ob ein Dokument eine Rechnung ist, wenn das FlexiLayout angewendet wird. Die unten aufgeführten Bedingungen weisen darauf hin, dass ein Dokument eine Rechnung ist. Nicht alle dieser Bedingungen müssen erfüllt sein, aber jede einzelne hat ein bestimmtes Gewicht.

Die Felder InvoiceNumber und InvoiceDate wurden erkannt.
Schlüsselwörter aus dem Element InvoiceIdentifiers located wurden erkannt (siehe Schlüsselwort).
Auf dem Dokument wurde ein Vendor oder ein Geschäftsbereich erkannt.

Ein Dokument kann als Gutschrift identifiziert werden, wenn Schlüsselwörter aus dem Element CreditNoteKeyword im Bild erkannt wurden oder wenn das Dokument einen negativen Gesamtbetrag hat.

Feldgruppe „Beträge“

FlexiCapture for Invoices erfasst die folgenden Felder aus einer Rechnung:

Feld	Invoice Processing (Au-NZ, US, CA, EU, JP)	Invoice Processing (ES)
Die Gesamtsumme der Rechnung (Total) und die Währung der Rechnung (Currency)	Ja	Ja
Steuern: die Gesamtsumme ohne Steuern (NetAmount0), die Rechnungssumme vor Steuern (TotalNetAmount), der zu zahlende Steuerbetrag (TotalTaxAmount)	Ja	Ja
Steuergruppen: Summe vor Steuern (NetAmount), zu zahlender Steuerbetrag (TaxAmount), Steuersatz (TaxRate)	Nein	Ja
Zusätzliche Steuer (AdditionalCosts)	Ja	Ja

Informationen aus der Document Definition werden verwendet, um Summen und Steuersätze zu finden:

Im Land des Vendor geltende Steuersätze (Sie können diese auf der Registerkarte Steuersätze in den Ländereigenschaften angeben — siehe Länder- und Spracheinstellungen).
Schlüsselwörter für Steuersätze (Sie können diese auf der Registerkarte Schlüsselwörter in den Spracheigenschaften angeben — siehe Schlüsselwörter).

Das Programm versucht, im Bild bis zu zwei Steuersätze zu finden. Wenn die Rechnung mehr als zwei Steuersätze enthält, können zusätzliche Felder erstellt und im Datenformular manuell ausgefüllt werden. Das Programm verwendet Schlüsselwörter, um die Felder TotalTax und TotalNetto zu erkennen. Sie können diese Schlüsselwörter in den Eigenschaften eines Landes oder einer Sprache angeben, je nachdem, wie das Schlüsselwort verwendet werden soll (weitere Informationen finden Sie unter Länder- und Spracheinstellungen). Weitere Informationen zu Schlüsselwörtern finden Sie unter Schlüsselwörter. Es gibt zwei Arten von Schlüsselwörtern für das Feld Total, die sich in verschiedenen Kategorien befinden (weitere Informationen zu Kategorien von Elementen zur Lokalisierung finden Sie unter Schlüsselwörter):

AmountTotalHighConfidenceLabels: Schlüsselwörter, die nur in der Nähe des Felds Total vorkommen, zum Beispiel „Diesen Betrag bezahlen.“
AmountTotalLowConfidenceLabels: Schlüsselwörter, die in der Nähe des Felds Total vorkommen können, aber auch in der Nähe anderer Felder. So kann das Schlüsselwort „Total“ in der Nähe des Felds Total erscheinen, aber auch in der Nähe eines Felds, das das Gesamtgewicht aller Positionen auf einer Rechnung enthält.

Wenn Sie nicht sicher sind, welcher dieser beiden Kategorien ein Schlüsselwort hinzugefügt werden soll, fügen Sie es AmountTotalHighConfidenceLabels hinzu. Wenn Sie auf Rechnungen stoßen, bei denen das Schlüsselwort dazu führt, dass das Programm ein anderes Feld als das Feld Total identifiziert, können Sie es nach AmountTotalLowConfidenceLabels verschieben.

Zusätzlich zu Schlüsselwörtern sucht das Programm nach den folgenden Elementen, wenn es versucht, das Feld Total zu erkennen:

Zahlen, die in derselben Zeile oder Spalte im Bild zwei- oder dreimal vorkommen. Solche Zahlen können den Gesamtbetrag auf Rechnungen darstellen, auf denen keine Steuern angegeben sind.
Zahlen, die die Summe der Zahlen oberhalb von ihnen in derselben Spalte sind.
Die größten Zahlen (nach Absolutwert) am Ende des Dokuments.

Das Programm sucht nur dann nach dem Feld Currency, wenn ein Feld Total erkannt wurde. Dabei werden Schlüsselwörter aus den Eigenschaften des Landes in der Document Definition verwendet. Alle Felder in der Feldgruppe „Beträge“, die im Bild nicht erkannt werden konnten, werden automatisch berechnet, mit Ausnahme des Felds Total, das im Bild erkannt werden muss. Wenn das Programm Informationen aus den Feldern der Feldgruppe „Beträge“ nicht korrekt extrahieren kann, wird das Feld Total als verifizierungspflichtig markiert. Wenn das Programm die Felder Total und Currency nicht mit hoher Sicherheit erkennt oder überhaupt nicht erkennt, können Sie das Training verwenden, um die Qualität der Extraktion zu verbessern.

Feldgruppe Bestellung

FlexiCapture for Invoices kann alle Bestellnummern und die zugehörigen Summen aus der Rechnung extrahieren. Diese Funktion ist standardmäßig deaktiviert (siehe Bestell-Matching). Um Bestellnummern zu extrahieren, benötigen Sie einen Datensatz mit einer Liste möglicher Bestellnummern und deren Summen (siehe PurchaseOrders Datensatz). Das Feld Bestellung kann wie folgt extrahiert werden:

mit einem regulären Ausdruck
mit einem Datensatz, der mögliche Bestellnummern enthält (siehe PurchaseOrders Datensatz)

Wenn ein Datensatz mit möglichen Bestellnummern verwendet wird, sucht FlexiCapture for Invoices auf Bildern nach Nummern aus diesem Datensatz. Idealerweise enthält die Datenbank so wenige Bestellnummern wie möglich. Um ihre Anzahl zu verringern, können Sie:

die VendorId-Spalte des Datensatzes verwenden. In diesem Fall verwendet das Programm nur Bestellnummern des Vendors der Rechnung.
Bestellungen herausfiltern, für die bereits eine Rechnung eingegangen ist, und nur die Nummern der Bestellungen hinzufügen, für die noch keine Rechnung eingegangen ist.

Das Programm durchsucht die Datenbank nach Summen, die den erkannten Bestellnummern entsprechen. Es durchsucht außerdem das Bild nach allen Bestellnummern, einschließlich derer in den Positionen der Rechnung. Bestellungen werden in der Regel vom ERP-System des Käufers erzeugt. Daher ähneln sich Rechnungen, die an einen bestimmten Geschäftsbereich gestellt werden, meist, und es ist in der Regel möglich, sie mit einem regulären Ausdruck zu beschreiben. Wenn es einen regulären Ausdruck für Bestellnummern gibt, erkennt das Programm alle Nummern auf Bildern, die diesem Ausdruck entsprechen. Der reguläre Ausdruck kann in einer XML-Konfigurationsdatei mit den folgenden Tags angegeben werden:

<InvoiceSettings>
...
<OrderNumber>
   <Value>
      <RegularExpression></RegularExpression>
   </Value>
</OrderNumber>
</InvoiceSettings>

Weitere Informationen zu XML-Konfigurationsdateien finden Sie unter Bearbeiten der Rechnungsverarbeitungseinstellungen in XML-Dateien.

Die Feldgruppe „Positionen (wiederholte Gruppe)“

FlexiCapture for Invoices kann Rechnungspositionen aus Bildern extrahieren. Die Extraktion von Rechnungspositionen ist standardmäßig deaktiviert (siehe Zusätzliche Felder). Eine Liste der Felder, die das Programm automatisch extrahiert, finden Sie unter Erfasste Felder. FlexiCapture for Invoices sucht zunächst im Bild nach einer Tabelle. Dabei verwendet es die Schlüsselwörter für Spaltenüberschriften, die für jede Sprache in den Eigenschaften der Document Definition angegeben sind. Schlüsselwörter für Spalten von Rechnungspositionen werden auch zur Klassifizierung der Positionen verwendet, also zur Bestimmung des Typs jeder Spalte einer Rechnungsposition. Anschließend verwendet das Programm Informationen über erkannte Spalten und mathematische Ausdrücke, um Rechnungspositionen in der Rechnungstabelle zu finden. Abschließend sucht es in den Rechnungspositionen nach Feldern aus den Spalten. Mithilfe von Training kann die Qualität der automatischen Extraktion von Rechnungspositionen verbessert werden.

Verwendung neuronaler Netze

Einer der Hauptvorteile neuronaler Netze ist ihre Fähigkeit, selbst zu lernen: Sie können komplexe Abhängigkeiten zwischen Eingabedaten erkennen und nützliche Verallgemeinerungen vornehmen. Das Programm enthält zwei neuronale Netze, die zum Erfassen der folgenden Felder verwendet werden können:

InvoiceNumber
InvoiceDate
Total
Vendor\Name
Vendor\Address
Business Unit\Name
Business Unit\Address
Purchase Orders\Order Number
LineItems:
- OrderNumber
- OrderDate
- Position
- ArticleNumber
- Description
- Quantity
- Unit of measurement
- Unit Price
- Total Price Netto
- VATPercentage

Für maximale Präzision verwendet das Programm sowohl ein FlexiLayout als auch seine neuronalen Netze, um Rechnungsfelder zu erfassen. Felder, die das Programm mithilfe seiner neuronalen Netze nicht extrahieren kann, werden mit dem FlexiLayout extrahiert. Wenn ein Feld sowohl durch die neuronalen Netze als auch durch das FlexiLayout extrahiert werden kann, kombiniert das Programm die Ergebnisse intelligent. Wie die Ergebnisse kombiniert werden, hängt vom jeweiligen Feld ab. Weitere Informationen finden Sie unter Kombinieren der Ergebnisse der Felderkennung.

Deaktivieren der neuronalen Netze

Standardmäßig werden die neuronalen Netze als zweite Methode zum Erfassen von Dokumentfeldern verwendet. Wenn Sie in Ihrem Rechnungsprojekt andere Dokumente als Rechnungen verarbeiten möchten, sollten Sie das neuronale Netz deaktivieren, da es speziell für die Erfassung von Rechnungsfeldern trainiert wurde und bei anderen Dokumenttypen möglicherweise nicht gut funktioniert. So deaktivieren Sie das neuronale Netz für die Gruppe Positionen (wiederholte Gruppe):

Öffnen Sie den Document Definition Editor

Öffnen Sie den Document Definition Editor.

Öffnen Sie die zusätzlichen Felder und Funktionen

Klicken Sie auf Eigenschaften der Dokumentdefinition… → Einstellung der Dokumentdefinition → Additional Fields and Features.

Deaktivieren Sie die Option

Deaktivieren Sie die Option Thorough extraction of invoice line items.

So deaktivieren Sie das neuronale Netz für die Gruppen Rechnungskopf, Vendor, Geschäftsbereich und Bestellung:

Öffnen Sie den Document Definition Editor

Öffnen Sie den Document Definition Editor.

Öffnen Sie die zusätzlichen Felder und Funktionen

Klicken Sie auf Eigenschaften der Dokumentdefinition… → Einstellung der Dokumentdefinition → Additional Fields and Features.

Deaktivieren Sie die Option

Deaktivieren Sie die Option Thorough extraction of invoice header fields.

Kombinieren der Ergebnisse der Felderkennung

Wie das Programm die Ergebnisse der Felderkennung kombiniert oder das beste Ergebnis auswählt, hängt vom jeweiligen Feld ab. In der Regel haben die Ergebnisse des jeweiligen neuronalen Netzwerks Vorrang. Ausnahmen sind Suchen auf Basis von Datensätzen und Suchen mit regulären Ausdrücken, die für bestimmte Kundendokumente erstellt wurden. Feldgruppe Rechnungskopf Bei den folgenden Feldern haben die vom neuronalen Netzwerk ermittelten Ergebnisse immer Vorrang:

Rechnungsnummer
Rechnungsdatum
Gesamtbetrag

Geschäftsbereich und Vendor Standardmäßig werden der Geschäftsbereich und der Vendor anhand eines Datensatzes erkannt, sofern ein Datensatz ausgewählt ist. Zusätzlich können die folgenden Felder mithilfe des neuronalen Netzwerks erkannt werden, wenn im Datensatz kein entsprechender Datensatz vorhanden ist:

Name
VATID (ABN)
Adresse

Wenn kein Datensatz ausgewählt ist, wird nur das neuronale Netzwerk verwendet. Feldgruppe Bestellung Das neuronale Netzwerk wird nur verwendet, wenn der Wert nicht mithilfe eines Datensatzes oder eines regulären Ausdrucks erkannt wird. Positionen (wiederholte Gruppe) Bei Positionsfeldern haben die vom neuronalen Netzwerk ermittelten Ergebnisse Vorrang. Wenn das neuronale Netzwerk die gesamte Positionentabelle erkennt, wird diese Tabelle für die weitere Verarbeitung verwendet. Andernfalls verwendet das Programm die mithilfe von FlexiLayout erkannten Positionen. Wenn das neuronale Netzwerk für jede Position nur die Felder Description und TotalPriceNetto erkennt, werden diese durch die mithilfe von FlexiLayout erkannten Felder ergänzt.

​Arbeiten mit einem FlexiLayout

​Geschäftsbereich und Vendor

​Automatischer Algorithmus zur Unternehmensidentifikation

​Hypothesenfilterung

​Ergebnisse der Erkennung von Vendor und Geschäftsbereich

​So ändern Sie, wie das Programm den Vendor oder Geschäftsbereich ermittelt

​Verwenden vordefinierter Vendor- und Geschäftsbereichswerte

​Feldgruppe Rechnungskopf

​InvoiceNumber und InvoiceDate

​Wie das Programm bestimmt, dass ein Dokument eine Rechnung ist

​Feldgruppe „Beträge“

​Feldgruppe Bestellung

​Die Feldgruppe „Positionen (wiederholte Gruppe)“

​Verwendung neuronaler Netze

​Deaktivieren der neuronalen Netze

​Kombinieren der Ergebnisse der Felderkennung

Arbeiten mit einem FlexiLayout

Geschäftsbereich und Vendor

Automatischer Algorithmus zur Unternehmensidentifikation

Hypothesenfilterung

Ergebnisse der Erkennung von Vendor und Geschäftsbereich

So ändern Sie, wie das Programm den Vendor oder Geschäftsbereich ermittelt

Verwenden vordefinierter Vendor- und Geschäftsbereichswerte

Feldgruppe Rechnungskopf

InvoiceNumber und InvoiceDate

Wie das Programm bestimmt, dass ein Dokument eine Rechnung ist

Feldgruppe „Beträge“

Feldgruppe Bestellung

Die Feldgruppe „Positionen (wiederholte Gruppe)“

Verwendung neuronaler Netze

Deaktivieren der neuronalen Netze

Kombinieren der Ergebnisse der Felderkennung