Zum Hauptinhalt springen

Vergleich von Dokumenten

Neues Modul „Compare Documents“Zur schnellen Überprüfung der Dokumentintegrität ermöglicht das neue Modul „Compare Documents“ in ABBYY FineReader Engine, in zwei Versionen desselben Dokuments inhaltliche Unterschiede zu erkennen.
Vergleich zweisprachiger DokumenteDie neue Option des Moduls „Compare Documents“ ermöglicht es, die Zweisprachigkeit eines solchen Dokuments und sein komplexes Layout automatisch zu erkennen und jede Spalte (und damit jede Sprachversion) separat zu vergleichen.

Einlesen von Office-Formaten unter Linux und Windows

Verarbeitung von Office-Dokumenten

Neben einer Vielzahl von Bildformaten kann FineReader Engine jetzt auch Eingabedokumente verarbeiten, die in einem der Office-Dokumentformate erstellt wurden:

  • Textdokumente: .doc, .docx, .rtf, .htm / .html, .txt, .odt
  • Tabellen: .xls, .xlsx, .ods
  • Präsentationen: .ppt, .pptx, .odp

Öffnen von Office-Dokumenten aus dem Speicher

Die neue Methode zum direkten Öffnen von Microsoft Office- und Apache OpenOffice-Dateien aus dem Speicher beschleunigt den Dokumentimport und damit die gesamte Dokumentverarbeitung.

MRZ-Erfassung

Datenerfassung aus einer maschinenlesbaren Zone (MRZ)Die neue Funktion ermöglicht die automatische Extraktion von Daten aus der maschinenlesbaren Zone (MRZ) in Ausweisdokumenten sowie die schnellere Eingabe und Überprüfung personenbezogener Daten beim Kunden-Onboarding oder in Verifizierungsprozessen.

Verbesserte japanische Optical Character Recognition (OCR)

Herausragende ErkennungsgenauigkeitMit der neuen Version von ABBYY Fine Reader Engine wurde die japanische Optical Character Recognition (OCR) deutlich verbessert und erreicht nun eine Erkennungsgenauigkeit auf einem neuen Niveau, das für die meisten Lösungen bisher unerreichbar war.

Verbesserte Optical Character Recognition (OCR) für Arabisch

End-to-End-Erkennung für Arabisch auf qualitativ schlechten BildernArabische Optical Character Recognition (OCR) auf Bildern geringer Qualität, bei denen allgemeine Technologien nur Ergebnisse mit geringer Konfidenz und vielen Fehlern liefern.

Verbesserte Optical Character Recognition (OCR) für Koreanisch

Deep-Learning-Sprachmodell für KoreanischEin trainiertes Modell für die koreanische Sprache wählt aus den Erkennungshypothesen die beste Variante für die Worterkennung aus oder erzeugt auf Grundlage des Erkennungskontexts (vorhergehende und nachfolgende Wörter) sogar eine neue.
Neue Optical Character Recognition (OCR)-Technologien auf Basis neuronaler Netze

Verbesserungen der Optical Character Recognition (OCR)-Technologien

Durch den Einsatz neuronaler Netzverfahren in den Optical Character Recognition (OCR)-Technologien wurde ABBYY FineReader Engine um die Verarbeitung handgeschriebener und in Druckschrift verfasster lateinischer Zeichen erweitert:

  • Sprachmodell für die konsistente und präzise Auswahl von Wortvarianten
  • End-to-End-Erkennung für lateinische Schriften zur Verarbeitung mehrsprachiger Dokumente

Barcode-Erkennungstechnologie auf Basis von Machine Learning

Die Architektur des neuronalen Netzes führt ein neues Modell zur Barcode-Erkennung ein, das die ungefähre Region eines Barcodes erkennt, ihn klassifiziert und die Ausgabe als Region mit dem wahrscheinlichsten Barcode-Typ bereitstellt.

Neuer Erkennungsmodus

Mit dem neuen Modus Accurate erzielen Sie die höchstmögliche Qualität des Ausgabedokuments, bei einer vertretbaren Verringerung der Erkennungsgeschwindigkeit. Dieser Modus eignet sich besonders für Rechnungen, Verträge, Belege und Ausweise mit geringer Qualität oder für aus Fotos erzeugte Dokumente.

Verbesserungen der Optical Character Recognition (OCR)-Qualität für Text in der Nähe von Stempeln und Unterschriften

Erkennung von Text in der Nähe von Stempeln und UnterschriftenEnthält eine Vereinbarung Stempel oder Unterschriften, wird der Text in ihrer Nähe getrennt davon erkannt, was die Qualität der verarbeiteten Dokumente verbessert.

Neue Lizenzierungsoptionen

Nutzung der Online License als Netzwerk- und Standalone-LizenzDie Entwicklerhilfe für FineReader Engine 12 wurde um zusätzliche Informationen zu verschiedenen Möglichkeiten der Lizenzierung des SDK erweitert. Die einzelnen Lizenzierungsoptionen werden dabei in einer leicht verständlichen Vergleichstabelle erläutert.
Verwendung von KulanzzeiträumenMit der neuen Option können Kunden die ABBYY FineReader Engine-Lizenz nach dem Ablaufdatum noch für некоторое Zeit weiterverwenden und so die Gültigkeitsdauer der Lizenz verlängern.

ICR- und OMR-Technologien in der Linux- und macOS-Version

Erkennung handschriftlichen Textes und von HäkchenMit ABBYY FineReader Engine 12 können Sie handgeschriebene und handgedruckte Zeichen sowie Häkchen verschiedener Typen erkennen. ICR- und OMR-Technologien kommen zum Einsatz, um Daten aus handschriftlichen Dokumenten zu extrahieren und neue Lösungen zur Datenextraktion zu entwickeln.
Möglichkeit, die Engine in Cloud-Umgebungen auszuführen
Neue BereitstellungsoptionenEin neuer Lizenzierungstyp ermöglicht die Bereitstellung in virtuellen und Cloud-Umgebungen, sodass Sie ein breiteres Spektrum an Lösungen anbieten können. Der Lizenzierungsmechanismus erfordert eine Internetverbindung und unterstützt Proxyserver. <Note> Gilt für FineReader Engine für Linux und Windows. </Note>
.NET Core-Wrapper in FRE für Windows
Neues EntwicklungsframeworkUm die Effizienz von Entwicklungsteams zu steigern, die Container und andere native Umgebungen für moderne Softwareentwicklung und -bereitstellung nutzen, bietet ABBYY FineReader Engine jetzt einen vorgefertigten .NET Core 6-Wrapper.
Neue Bibliotheken in ABBYY FineReader Engine
Einsatz der NeoML-BibliothekNeoML ist ein Open-Source-End-to-End-Framework für maschinelles Lernen, mit dem Sie Machine-Learning-Modelle erstellen, trainieren und bereitstellen können. Dieses Framework wird von Ingenieuren für Aufgaben in den Bereichen Computer Vision und Verarbeitung natürlicher Sprache verwendet, darunter Bildvorverarbeitung, Klassifizierung, Dokumentlayoutanalyse, Optical Character Recognition (OCR) und Datenextraktion aus strukturierten und unstrukturierten Dokumenten.
Eingebettetes PDFium für die PDF-VerarbeitungPDFium ist eine plattformübergreifende native Bibliothek, die den PDF-Standards entspricht und alle PDF-bezogenen Vorgänge steuert, darunter Verarbeitung, Parsing, Rendering und Ausgabeerstellung.
Erweiterte Dokumentklassifizierung
Dokumentklassifizierung mit NLP und Machine LearningMit ABBYY FineReader Engine 12 können eingehende Dokumente automatisch in verschiedene Kategorien sortiert werden. Technologien für maschinelles Lernen, Optical Character Recognition (OCR) und Verarbeitung natürlicher Sprache werden eingesetzt, um die bildbasierten und textbasierten Klassifikatoren anhand repräsentativer Dokumente zu trainieren. Die dabei gewonnenen Informationen werden dann im Klassifizierungsschritt verwendet.
Textbasierter Klassifikator: erweiterte Sicherheit der TrainingsdatenUm den textbasierten Klassifikator zu trainieren und zu optimieren, müssen Dokumente importiert werden, die die einzelnen Dokumentkategorien repräsentieren. Zum Schutz der in diesen Dokumenten enthaltenen Daten verhindern die implementierten Hashing-Algorithmen, dass Informationen aus den Beispieldokumenten rekonstruiert werden können.
Erweitertes Demo Sample zur KlassifizierungABBYY FineReader Engine kann PDFs, gescannte oder fotografierte Dokumentbilder sowie Dokumente in Office-Formaten verarbeiten. Um diese Fähigkeit im Klassifizierungsprozess widerzuspiegeln, wurde das bereitgestellte vorkompilierte Demo Sample für die Klassifizierung erweitert und ermöglicht nun zusätzlich zu PDFs und Bildformaten auch den Import von Office-Dokumenten.

Codebeispiel für die Befehlszeilenschnittstelle (CLI)

Sofort einsatzbereites CodebeispielMit diesem Codebeispiel können Entwickler ABBYY FineReader Engine-Bibliotheken effizient nutzen und Dokumentverarbeitungsfunktionen in befehlszeilenbasierten Anwendungen integrieren.
Implementierung eines Extraktors für PDF-Metadaten
Verarbeitung digital erstellter PDF-DateienAuxInfo ist ein Zusatzobjekt von PDFium, das Metadaten aus einer PDF-Datei bereitstellt. Das ABBYY R&D PDFTools-Team hat ein eigenes AuxInfo-Objekt implementiert, das mit PDFium arbeitet.

Verbesserte PDF-Verarbeitung

Verbesserungen für PDFs mit „gemischten“
Inhalten

ABBYY FineReader Engine bietet neue Funktionen für die Verarbeitung von PDF-Dokumenten, die sowohl bildbasierte als auch digital erzeugte Seiten enthalten:

  • Adaptive Erkennung zur Verbesserung und Beschleunigung der PDF-Verarbeitung
  • Qualitäts-Classifier für die Textebene, um eine gute Textebene im Ausgabeformat beizubehalten
  • Anzeige, ob eine digitale Signatur im PDF vorhanden ist
  • Neuer Modus zur Wiederverwendung von Inhalten für die Verarbeitung von Dokumenten mit gemischten Inhalten

Verwendung zusätzlicher Inhalte in PDF

Für eine flexiblere Gestaltung von PDF-Inhalten bietet ABBYY FineReader Engine neue Optionen:

  • Öffnen von PDF-Portfolios und Verarbeiten ihrer Inhalte
  • Hinzufügen benutzerdefinierter Bilder zum Ausgabe-PDF und Verwalten ihrer Positionen
Zusätzliche Sprachunterstützung
Farsi Optical Character Recognition (OCR)ABBYY FineReader Engine bietet aktualisierte und verbesserte Optionen für die Farsi-Erkennung und ermöglicht so ein effektiveres Arbeiten mit Dokumenten aus dem Iran, Afghanistan und vielen anderen Ländern des Nahen Ostens.
Georgian Optical Character Recognition (OCR)Georgisch wurde als neue Optical Character Recognition (OCR)-Sprache hinzugefügt.
Optical Character Recognition (OCR) for simple mathematical formulasDurch das Extrahieren von Zeichen aus einfachen mathematischen Formeln wird die Erkennung wissenschaftlicher Dokumente verbessert, die einfache einzeilige mathematische Formeln im Text enthalten.
Technical preview for Burmese Optical Character Recognition (OCR)Burmese Optical Character Recognition (OCR) wurde als technische Vorschau hinzugefügt, um künftige Möglichkeiten aufzuzeigen.
Special languages for Arabic and Japanese dates captureFineReader Engine für Windows unterstützt spezielle Sprachen für die Felderkennung. Die neue Version bietet eine verbesserte Datumserkennung für Arabisch und Japanisch.
Technical preview for Bangla Optical Character Recognition (OCR)Bangla Optical Character Recognition (OCR) wurde als technische Vorschau hinzugefügt, um potenzielle Funktionen zu demonstrieren.

Verbesserte Rekonstruktion des Dokumentenlayouts

Verbesserte TabellenrekonstruktionMit ABBYY FineReader Engine 12 behalten aus Dokumenten extrahierte Tabellen ihre Formatierung besser als je zuvor bei.
Erkennung und Rekonstruktion gleichmäßiger SpaltenWenn ein Dokument gleichmäßige Textspalten enthält (z. B. Verträge, wissenschaftliche Arbeiten, Artikel usw.), bleibt die ursprüngliche Struktur jetzt erhalten, was die Dokumentverarbeitung vereinfacht.
Neues „einspaltiges“ DokumentmodellDie wichtigsten Verbesserungen des neuen Algorithmus betreffen die Erkennung und Analyse von Tabellen und Diagrammen.
Erweiterte Analyse der TabellenstrukturMit dem verbesserten Mechanismus zur Dokumentkonvertierung kann ABBYY FineReader Engine Tabellen mit Zahlenspalten im Format „Accounting“ erkennen.

Interne Prozessoptimierung für eine schnellere Verarbeitung

Neues Schema für die Iteration des ILayout-ObjektsEin neues Schema, das die Iteration des ILayout-Objekts beschleunigt, das nach der Verarbeitung des Dokuments außerhalb des Hauptprozesses vorliegt. <Note> Gilt für FineReader Engine unter Linux und Windows . </Note>

Neue Scanoptionen in FRE für Windows

Mehr Scanfunktionen

ABBYY FineReader Engine 12 bietet zahlreiche gerätebasierte Scanfunktionen:

  • automatisches Entfernen leerer Seiten aus dem Dokument
  • automatisches Zuschneiden von Seiten
  • automatische Korrektur der Schieflage
  • automatische Farberkennung
Online-Dokumentation
Online verfügbare DokumentationZusätzlich zur integrierten Dokumentation können Sie jetzt auch die Onlineversion nutzen, die „Just-in-time“-Informationen zu den Funktionen und Möglichkeiten von ABBYY FineReader Engine bereitstellt.

Neueste .NET Framework-Versionen in FRE für Windows

Unterstützung für .NET COM-Interop-Wrapper

Der Lieferumfang enthält nun .NET COM-Interop-Wrapper für die folgenden .NET Framework-Versionen:

  • 3.5 SP1
  • 4.6
  • 4.7
  • 4.8
Neue Exportformate
JSONJSON (JavaScript Object Notation) ist ein offenes, sprachunabhängiges Dateiformat zur Übertragung von Datenobjekten, die aus Attribut-Wert-Paaren und Array-Datentypen bestehen. FineReader Engine unterstützt jetzt den Export von Optical Character Recognition (OCR)-Ergebnissen im JSON-Format.
Neue ALTO-VersionenALTO (Analyzed Layout and Text Object) ist ein XML-Schema, das technische Metadaten zur Beschreibung des Layouts und Inhalts physischer Textressourcen wie der Seiten eines Buches oder einer Zeitung bereitstellt. Die neuesten Versionen dieses Schemas (4.0, 4.1, 4.2) werden in FineReader Engine 12 unterstützt.
PDF/A-2b und PDF/A-3bPDF/A ist eine von der ISO standardisierte Version des Portable Document Format (PDF), die auf die Archivierung und langfristige Aufbewahrung elektronischer Dokumente ausgelegt ist. FineReader Engine unterstützt jetzt alle PDF/A-Konformitätsstufen.

Voller Funktionsumfang