Zum Hauptinhalt springen
Um eine neue Dokumentdefinition zu erstellen oder einen Dokumentensatz aus bereits aktivierten Dokumentdefinitionen zu erstellen, wählen Sie im Hauptmenü Project Document Definitions… und klicken Sie dann auf New… Wählen Sie anschließend aus, welche Art von Dokumenten Sie verarbeiten möchten. Formulare Formulare sind Dokumente mit festem Layout, d. h. die Felder befinden sich auf allen Exemplaren an derselben Position, wobei jedes Exemplar eine exakte Kopie des vom Designer erstellten Masterformulars ist.
  1. Wählen Sie ein Bild aus, das als Referenzkopie verwendet werden soll.
Eine Dokumentdefinition für Formulare wird auf Grundlage eines Bildes erstellt, das durch das Scannen eines leeren Formulars gewonnen wurde. Bei Formularen müssen Sie ein Bild eines leeren Formulars verwenden, da Sie darauf die Position jedes Felds angeben.
Das Bild muss von hoher Qualität sein und darf keine Verzerrungen wie Schieflagen, Verschiebungen usw. aufweisen. Bei Farbformularen dürfen Sie beim Scannen eines leeren Formulars keine Farbfilter anwenden, da der Hintergrund erhalten bleiben muss, um eine Dokumentdefinition zu erstellen. Filter zum Entfernen des Hintergrunds sollten erst später beim Scannen ausgefüllter Formulare angewendet werden.
Wenn Ihr Dokument mehrere Seiten enthält, laden Sie die erste Seite und folgen Sie den Empfehlungen im Abschnitt Dokumentdefinitionen für mehrseitige Dokumente erstellen, um die übrigen Seiten hinzuzufügen.Klicken Sie auf Next, um mit dem nächsten Schritt fortzufahren.
  1. Geben Sie die wichtigsten Eigenschaften der Dokumentdefinition an, einschließlich Name, Beschreibung und Sprache Ihrer Dokumente.
Standardmäßig werden in der Dropdown-Liste für Sprachen nur die Sprachen angezeigt, für die Wörterbücher verfügbar sind. Um alle verfügbaren Sprachen anzuzeigen, wählen Sie die Option Show all languages. Achten Sie darauf, die richtige Sprache anzugeben. Wenn Sie die falsche Sprache angeben, führt dies zu Erkennungsfehlern. Die Sprachen, neben denen die Abkürzung “ICR” steht, können zur Erkennung von handschriftlichem, in Druckbuchstaben handgeschriebenem und maschinengedrucktem Text verwendet werden. Wenn Sie die Sprache Ihrer Dokumente im Voraus nicht kennen, können Sie mehrere mögliche Sprachen angeben, aus denen das Programm dann die passende Sprache auswählt.
Wenn Sie zu viele Sprachen angeben, kann dies die Dokumentverarbeitung verlangsamen und zu Erkennungsfehlern führen.
Der in diesem Schritt angegebene Texttyp wird standardmäßig verwendet, Sie können ihn später jedoch jederzeit für jedes Feld ändern (dies kann erforderlich sein, wenn verschiedene Felder Text in unterschiedlichen Sprachen enthalten).Wählen Sie die Option Erkennungseinstellungen vom Batch-Typ verwenden, wenn Sie die für den Batch-Typ festgelegten Erkennungseinstellungen verwenden möchten.
Das Deaktivieren der Synchronisierung kann das Matching der Dokumentdefinition verlangsamen.
Klicken Sie auf Next, um mit dem nächsten Schritt fortzufahren.
  1. Geben Sie die Feldtypen an, die automatisch erkannt werden sollen. Das Programm kann speziell markierte Eingabefelder oder Häkchen in Kästchen problemlos finden. Wenn die Eingabefelder auf Ihrem Formular jedoch keine spezielle Markierung haben oder wenn es keine speziellen Kästchen für Häkchen neben erläuterndem Text gibt, sollten Sie deren mögliche Positionen manuell angeben.
Das Programm versucht immer, Anker auf Formularen zu erkennen.
Klicken Sie auf Finish. Der Document Definition Editor wird geöffnet. Dort müssen Sie die Felder und statischen Elemente im Seitenbild markieren und ihre Eigenschaften definieren.
Teilstrukturierte oder unstrukturierte Dokumente Bei teilstrukturierten und unstrukturierten Dokumenten kann die Anordnung der Felder von Dokument zu Dokument variieren. Um Felder aus solchen Dokumenten zu extrahieren, wird ein FlexiLayout verwendet. Zusätzlich können Technologien zur Verarbeitung natürlicher Sprache (NLP) eingesetzt werden, um Felder aus unstrukturierten Dokumenten zu extrahieren.
  1. Wählen Sie ein Bild aus, das als Referenzkopie verwendet werden soll (optional, wenn Sie ein FlexiLayout erstellen).
Wenn Sie ein in ABBYY FlexiLayout Studio erstelltes FlexiLayout verwenden möchten, wählen Sie die Option FlexiLayout laden und geben Sie den Pfad zur Datei an, die das FlexiLayout enthält. Weitere Informationen finden Sie im Abschnitt Erstellen einer Dokumentdefinition auf der Grundlage einer flexiblen Beschreibung.Ein FlexiLayout kann automatisch erstellt werden, wenn die Option Feldpositionstraining zulassen aktiviert ist.Klicken Sie auf Weiter, um zum nächsten Schritt zu gelangen.
  1. Geben Sie die Haupteigenschaften der Dokumentdefinition an, einschließlich Name, Beschreibung und Sprache Ihrer Dokumente.
Standardmäßig werden in der Dropdown-Liste für Sprachen nur die Sprachen, für die Wörterbücher bereitgestellt werden, angezeigt. Um alle verfügbaren Sprachen anzuzeigen, wählen Sie die Option Alle Sprachen anzeigen. Achten Sie darauf, die richtige Sprache anzugeben. Wenn Sie die falsche Sprache angeben, führt dies zu Erkennungsfehlern. Die Sprachen, neben denen die Abkürzung “ICR” steht, können zur Erkennung von handschriftlichem, in Druckbuchstaben handgeschriebenem und maschinengedrucktem Text verwendet werden. Wenn Sie die Sprache Ihrer Dokumente nicht im Voraus kennen, können Sie mehrere mögliche Sprachen angeben, aus denen das Programm dann die passende Sprache auswählt.
Wenn Sie zu viele Sprachen angeben, kann dies die Dokumentverarbeitung verlangsamen und zu Erkennungsfehlern führen.
Der in diesem Schritt angegebene Texttyp wird standardmäßig verwendet. Sie können den Texttyp für jedes Feld jedoch später jederzeit ändern (dies kann erforderlich sein, wenn verschiedene Felder Text in unterschiedlichen Sprachen enthalten).Wählen Sie die Option Erkennungseinstellungen vom Batch-Typ verwenden, wenn Sie die für den Batch-Typ festgelegten Erkennungseinstellungen verwenden möchten.
Das Deaktivieren der Synchronisierung kann das Matching der Dokumentdefinition verlangsamen.
Klicken Sie auf Fertig stellen. Der Document Definition Editor wird geöffnet.
Dokumente, für die keine automatische Datenextraktion erforderlich ist Dabei handelt es sich um Dokumente, für die keine automatische Felderkennung erforderlich ist. Die OCR-Technologie kann eingesetzt werden, um Volltextsuchen zu ermöglichen, oder die Dokumente können unerkannt bleiben. Ziel der Verarbeitung solcher Dokumente ist es, sie zu digitalisieren und für Benutzer durchsuchbar zu machen, die anhand des Werts der wichtigen Felder suchen. Weitere Informationen finden Sie im Abschnitt Dokumentdefinitionen ohne Feldextraktion.
  1. Wählen Sie die Quelle des Bildes aus, das für das Dokumentbeispiel verwendet wird (optional).
Klicken Sie auf Weiter, um zum nächsten Schritt zu gelangen.
  1. Geben Sie die Haupteigenschaften der Dokumentdefinition an, einschließlich Name, Beschreibung und Sprache Ihrer Dokumente.
Standardmäßig werden in der Dropdown-Liste für Sprachen nur die Sprachen, für die Wörterbücher bereitgestellt werden, angezeigt. Um alle verfügbaren Sprachen anzuzeigen, wählen Sie die Option Alle Sprachen anzeigen. Achten Sie darauf, die richtige Sprache anzugeben. Wenn Sie die falsche Sprache angeben, führt dies zu Erkennungsfehlern. Die Sprachen, neben denen die Abkürzung “ICR” steht, können zur Erkennung von handschriftlichem, in Druckbuchstaben handgeschriebenem und maschinengedrucktem Text verwendet werden. Wenn Sie die Sprache Ihrer Dokumente nicht im Voraus kennen, können Sie mehrere mögliche Sprachen angeben, aus denen das Programm dann die passende Sprache auswählt.
Wenn Sie zu viele Sprachen angeben, kann dies die Dokumentverarbeitung verlangsamen und zu Erkennungsfehlern führen.
Der in diesem Schritt angegebene Texttyp wird standardmäßig verwendet. Sie können den Texttyp für jedes Feld jedoch später jederzeit ändern (dies kann erforderlich sein, wenn verschiedene Felder Text in unterschiedlichen Sprachen enthalten).Wählen Sie die Option Erkennungseinstellungen vom Batch-Typ verwenden, wenn Sie die für den Batch-Typ festgelegten Erkennungseinstellungen verwenden möchten.
Das Deaktivieren der Synchronisierung kann das Matching der Dokumentdefinition verlangsamen.
Klicken Sie auf Fertig stellen.
Dokumentensatz Ein Dokumentensatz ist eine Sammlung logisch zusammengehöriger Dokumente. Für einen Dokumentensatz wird eine Dokumentdefinition erstellt, die andere Dokumentdefinitionen und optional einen Zusammenfassungsbereich mit Informationen enthält, die aus den Dokumenten im Satz zusammengestellt wurden. Weitere Informationen finden Sie im Abschnitt Erstellen und Einrichten von Dokumentensätzen.
  1. Wählen Sie in der Liste aller im Projekt verfügbaren Dokumente die Dokumente aus, die zum Dokumentensatz gehören. Fügen Sie bei Bedarf einen Zusammenfassungsbereich hinzu, um die wichtigsten Felder des Satzes in einem Bereich zu gruppieren, sodass sie alle im selben Datenformular überprüft werden können.
Klicken Sie auf Next, um mit dem nächsten Schritt fortzufahren.
  1. Geben Sie die wichtigsten Eigenschaften der Dokumentdefinition an, darunter Name, Beschreibung und Sprache Ihrer Dokumente.
Standardmäßig werden in der Dropdown-Liste nur die Sprachen angezeigt, für die Wörterbücher verfügbar sind. Um alle verfügbaren Sprachen anzuzeigen, wählen Sie die Option Show all languages. Achten Sie darauf, die richtige Sprache anzugeben. Wenn Sie die falsche Sprache angeben, führt dies zu Erkennungsfehlern. Die Sprachen, neben denen die Abkürzung „ICR“ steht, können zur Erkennung von handschriftlichem, in Druckbuchstaben handgeschriebenem und maschinengedrucktem Text verwendet werden. Wenn Sie die Sprache Ihrer Dokumente nicht im Voraus kennen, können Sie mehrere mögliche Sprachen angeben, aus denen das Programm dann die passende Sprache auswählt.
Wenn Sie zu viele Sprachen angeben, kann dies die Dokumentverarbeitung verlangsamen und zu Erkennungsfehlern führen.
Der in diesem Schritt angegebene Texttyp wird standardmäßig verwendet. Sie können den Texttyp aber später jederzeit für jedes Feld ändern (dies kann erforderlich sein, wenn verschiedene Felder Text in unterschiedlichen Sprachen enthalten).Wählen Sie die Option Erkennungseinstellungen vom Batch-Typ verwenden, wenn Sie die für den Batch-Typ festgelegten Erkennungseinstellungen verwenden möchten.
Das Deaktivieren der Synchronisierung kann das Matching der Dokumentdefinition verlangsamen.
Klicken Sie auf Finish.