Principais novidades

Comparação de documentos

Novo módulo “Compare Documents”	Para verificar rapidamente a integridade do documento, o novo módulo “Compare Documents” no ABBYY FineReader Engine permite detectar diferenças de conteúdo entre duas versões do mesmo documento.
Comparação de documentos bilíngues	A nova opção do módulo “Compare Documents” permite detectar automaticamente o caráter bilíngue desse tipo de documento e seu layout complexo, além de comparar cada coluna separadamente (e, assim, cada versão em um idioma).

Entrada de formatos do Office no Linux e Windows

Processamento de documentos do Office

Além de uma ampla variedade de formatos de imagem, o FineReader Engine agora também pode processar documentos de entrada criados em um dos formatos de documentos do Office:

Documentos de texto: .doc, .docx, .rtf, .htm / .html, .txt, .odt
Planilhas: .xls, .xlsx, .ods
Apresentações: .ppt, .pptx, .odp

Abertura de documentos do Office a partir da memória

O novo método para abrir arquivos do Microsoft Office e do Apache OpenOffice diretamente da memória permite acelerar a etapa de importação de documentos, o que aumenta a velocidade geral de processamento.

Captura de MRZ

Captura de dados de uma zona de leitura mecânica (MRZ)	O novo recurso permite a extração automática de dados de uma zona de leitura mecânica (MRZ) em documentos de identidade e agiliza o preenchimento e a verificação de dados pessoais durante processos de cadastro ou verificação de clientes.

OCR (Optical Character Recognition) em japonês aprimorado

Precisão de reconhecimento superior	Com a nova versão do ABBYY Fine Reader Engine, o OCR (Optical Character Recognition) em japonês teve melhorias significativas, elevando a precisão de reconhecimento a um novo patamar, antes inatingível para a maioria das soluções.

OCR (Optical Character Recognition) em árabe aprimorado

Reconhecimento completo de árabe em imagens de má qualidade	OCR (Optical Character Recognition) em árabe em imagens de baixa qualidade, nas quais a tecnologia geral produz resultados pouco confiáveis e com muitos erros.

OCR (Optical Character Recognition) coreano aprimorado

Modelo linguístico de aprendizado profundo para coreano	Um modelo treinado para o idioma coreano seleciona a melhor variante de reconhecimento de palavras a partir de hipóteses de reconhecimento ou até mesmo gera uma nova com base no contexto de reconhecimento (palavras anteriores e posteriores).

Novas tecnologias de OCR (Optical Character Recognition) baseadas em redes neurais

Melhorias nas tecnologias de OCR (Optical Character Recognition)

Com abordagens de redes neurais aplicadas às tecnologias de OCR (Optical Character Recognition), o ABBYY FineReader Engine foi aprimorado com o processamento de símbolos latinos manuscritos e em letra de forma:

Modelo linguístico para uma escolha consistente e precisa de variantes de palavras
Reconhecimento de ponta a ponta de escritas latinas para processar documentos multilíngues

Tecnologia de reconhecimento de código de barras com aprendizado de máquina

A arquitetura de rede neural introduz um novo modelo de reconhecimento de código de barras que detecta a região aproximada de um código de barras, faz sua classificação e gera uma saída representada como uma região com o tipo de código de barras mais provável.

Novo modo de reconhecimento

O novo modo Accurate permite obter a máxima qualidade do documento de saída, com uma redução moderada na velocidade de reconhecimento. Esse modo é mais adequado para faturas, contratos, recibos e documentos de identidade de baixa qualidade ou gerados por foto.

Melhorias na qualidade do OCR (Optical Character Recognition) para texto próximo de carimbos e assinaturas

Detecção de texto próximo de carimbos e assinaturas	Quando um contrato contiver carimbos ou assinaturas, o texto ao redor deles será reconhecido separadamente, melhorando a qualidade dos documentos processados.

Novas opções de licenciamento

Uso da Licença Online como Network e Standalone	A Ajuda do Desenvolvedor do FineReader Engine 12 foi ampliada com informações adicionais sobre as diferentes opções de licenciamento do SDK, descrevendo os diferentes tipos de licenciamento em uma tabela comparativa fácil de entender.
Uso de períodos de carência	Com a nova opção, os clientes podem usar a licença do ABBYY FineReader Engine por algum tempo após a data de expiração, ampliando assim o período de validade da licença.

Tecnologias de ICR e OMR na versão para Linux e macOS

Reconhecimento de texto manuscrito e marcas de seleção	Com o ABBYY FineReader Engine 12, é possível reconhecer caracteres manuscritos e escritos à mão em letra de forma, além de marcas de seleção de vários tipos. As tecnologias de ICR e OMR são usadas para extrair dados de documentos manuscritos e desenvolver novas soluções de extração de dados.

Capacidade de executar o Engine em ambientes de nuvem

Novas opções de implantação	O novo tipo de licenciamento permite a implantação em ambientes virtuais e de nuvem, ampliando o leque de soluções que você pode oferecer. O mecanismo de licenciamento requer conexão com a internet e oferece suporte a servidores proxy. <Note> Aplicável ao FineReader Engine para Linux e Windows. </Note>

Wrapper .NET Core no FRE para Windows

Novo framework de desenvolvimento	Para aumentar a eficiência das equipes de desenvolvimento que usam contêineres e outros ambientes nativos em um modelo cada vez mais comum de desenvolvimento e implantação de software, o ABBYY FineReader Engine agora oferece um wrapper .NET Core 6 pré-compilado.

Novas bibliotecas no ABBYY FineReader Engine

Uso da biblioteca NeoML	O NeoML é um framework open source de machine learning de ponta a ponta que permite criar, treinar e implantar modelos de Machine Learning. Esse framework é usado por engenheiros em tarefas de visão computacional e processamento de linguagem natural, incluindo pré-processamento de imagens, classificação, análise de layout de documentos, OCR (Optical Character Recognition) e extração de dados de documentos estruturados e não estruturados.
PDFium incorporado para processamento de PDFs	O PDFium é uma biblioteca nativa multiplataforma em conformidade com os padrões PDF e responsável por todas as operações relacionadas a PDF, incluindo processamento, análise, renderização e geração da saída.

Classificação de documentos aprimorada

Classificação de documentos usando NLP e Machine Learning	Com o ABBYY FineReader Engine 12, os documentos de entrada podem ser classificados automaticamente em diferentes categorias. Tecnologias de machine learning, OCR (Optical Character Recognition) e processamento de linguagem natural são empregadas para treinar classificadores baseados em imagem e em texto com documentos representativos. Essas informações são então usadas na etapa de classificação.
Classificador baseado em texto: segurança avançada dos dados de treinamento	Para treinar e otimizar o classificador baseado em texto, é necessário importar documentos que representem cada categoria de documento. Para proteger os dados contidos nesses documentos, os algoritmos de hash implementados impedem a recuperação de informações a partir dos documentos de exemplo.
Demo Sample de classificação aprimorado	O ABBYY FineReader Engine é capaz de processar PDFs, imagens de documentos digitalizados ou fotografados, bem como documentos em formatos do Office. Para refletir essa capacidade no processo de classificação, o Demo Sample pré-compilado fornecido para classificação foi aprimorado e agora também permite importar documentos do Office, além de PDFs e formatos de imagem.

Exemplo de código para interface de linha de comando (CLI)

Exemplo de código pronto para uso	Com este exemplo de código, os desenvolvedores podem usar com eficiência as bibliotecas do ABBYY FineReader Engine e integrar recursos de processamento de documentos a aplicativos de linha de comando.

Implementação do extrator de metadados de PDF

Processamento de arquivo PDF criado digitalmente	AuxInfo é um objeto complementar do PDFium que fornece informações de metadados de um arquivo PDF. A equipe de P&D do PDFTools da ABBYY implementou seu próprio objeto AuxInfo para funcionar com o PDFium.

Processamento de PDF aprimorado

Melhorias para PDFs com conteúdo
”misto”

O ABBYY FineReader Engine oferece novos recursos para processar documentos PDF que contêm páginas somente com imagem e páginas geradas digitalmente:

Reconhecimento adaptativo para melhorar e acelerar o processamento de PDFs
Classificador da qualidade da camada de texto para preservar uma camada de boa qualidade no formato de saída
Indicação da presença de assinatura digital no PDF
Novo modo de reutilização de conteúdo para processar documentos com conteúdo misto

Uso de conteúdo adicional em PDF

Para garantir uma composição mais flexível do conteúdo do PDF, o ABBYY FineReader Engine oferece novas opções:

Abertura de PDF Portfolios e processamento de seu conteúdo
Inclusão de imagens personalizadas no PDF de saída e gerenciamento de suas posições

Suporte adicional a idiomas

OCR (Optical Character Recognition) em farsi	O ABBYY FineReader Engine oferece opções de reconhecimento em farsi atualizadas e aprimoradas, abrindo caminho para um trabalho mais eficaz com documentos do Irã, Afeganistão e de muitos outros países do Oriente Médio.
OCR (Optical Character Recognition) em georgiano	O idioma georgiano foi adicionado como novo idioma de OCR (Optical Character Recognition).
OCR (Optical Character Recognition) para fórmulas matemáticas simples	A extração de caracteres de fórmulas matemáticas simples permite um melhor reconhecimento de documentos científicos que contêm fórmulas matemáticas simples de uma única linha no texto.
Prévia técnica do OCR (Optical Character Recognition) em birmanês	O OCR (Optical Character Recognition) em birmanês foi adicionado como prévia técnica para demonstrar recursos futuros.
Idiomas especiais para captura de datas em árabe e japonês	O FineReader Engine para Windows oferece suporte a idiomas especiais para reconhecimento de campos. A nova versão adiciona reconhecimento de datas aprimorado em árabe e japonês.
Prévia técnica do OCR (Optical Character Recognition) em bangla	O OCR (Optical Character Recognition) em bangla foi adicionado como prévia técnica para demonstrar funcionalidades em potencial.

Recriação aprimorada do layout do documento

Reconstrução aprimorada de tabelas	Com o ABBYY FineReader Engine 12, as tabelas extraídas dos documentos preservam sua formatação melhor do que nunca.
Detecção e recriação de colunas balanceadas	Sempre que um documento contiver colunas balanceadas de texto (por exemplo, contratos, artigos científicos, artigos etc.), a estrutura original agora permanece intacta, simplificando o processamento de documentos.
Novo modelo de documento de “coluna única”	As principais melhorias do novo algoritmo estão na detecção e na análise de tabelas e gráficos.
Análise aprimorada da estrutura de tabelas	Com o mecanismo aprimorado de conversão de documentos, o ABBYY FineReader Engine pode detectar tabelas com colunas de números no formato “Contábil”.

Otimização interna do processo para um processamento mais rápido

Novo esquema de iteração do objeto ILayout	Um novo esquema que acelera a iteração do objeto ILayout obtido depois que o documento é processado fora do processo principal. <Note> Aplicável ao FineReader Engine para Linux e Windows. </Note>

Novas opções de digitalização no FRE para Windows

Mais recursos de digitalização

O ABBYY FineReader Engine 12 oferece muitos recursos de digitalização por dispositivo:

remoção automática de páginas em branco do documento
recorte automático de página
correção automática de inclinação
detecção automática de cores

Documentação online

Documentação disponível online	Além da documentação integrada, agora você também pode usar a versão online, que fornece informações conforme necessário sobre os recursos e as funcionalidades do ABBYY FineReader Engine.

Versões mais recentes do .NET Framework no FRE para Windows

Suporte a wrappers COM Interop do .NET

A distribuição agora inclui wrappers COM Interop do .NET para as seguintes versões do .NET Framework:

3.5 SP1
4.6
4.7
4.8

Novos formatos de exportação

JSON	JSON (JavaScript Object Notation) é um formato de arquivo aberto e independente de linguagem, usado para transmitir objetos de dados compostos por pares atributo-valor e tipos de dados de array. O FineReader Engine agora oferece suporte à exportação de resultados de OCR (Optical Character Recognition) no formato JSON.
Novas versões do ALTO	ALTO (Analyzed Layout and Text Object) é um esquema XML que detalha metadados técnicos para descrever o layout e o conteúdo de recursos textuais físicos, como as páginas de um livro ou jornal. As versões mais recentes desse esquema (4.0, 4.1, 4.2) são compatíveis com o FineReader Engine 12.
PDF/A-2b e PDF/A-3b	PDF/A é uma versão padronizada pela ISO do Portable Document Format (PDF), especializada em arquivamento e preservação de longo prazo de documentos eletrônicos. Agora, o FineReader Engine oferece suporte a todos os níveis de conformidade do PDF/A.

Visão geral

Principais recursos novos

Comparação de documentos

Entrada de formatos do Office no Linux e Windows

Captura de MRZ

OCR (Optical Character Recognition) em japonês aprimorado

OCR (Optical Character Recognition) em árabe aprimorado

OCR (Optical Character Recognition) coreano aprimorado

Melhorias na qualidade do OCR (Optical Character Recognition) para texto próximo de carimbos e assinaturas

Novas opções de licenciamento

Tecnologias de ICR e OMR na versão para Linux e macOS

Exemplo de código para interface de linha de comando (CLI)

Processamento de PDF aprimorado

Recriação aprimorada do layout do documento

Otimização interna do processo para um processamento mais rápido

Novas opções de digitalização no FRE para Windows

Versões mais recentes do .NET Framework no FRE para Windows

Funcionalidade completa

Visão geral

Principais recursos novos

​Comparação de documentos

​Entrada de formatos do Office no Linux e Windows

​Captura de MRZ

​OCR (Optical Character Recognition) em japonês aprimorado

​OCR (Optical Character Recognition) em árabe aprimorado

​OCR (Optical Character Recognition) coreano aprimorado

​Melhorias na qualidade do OCR (Optical Character Recognition) para texto próximo de carimbos e assinaturas

​Novas opções de licenciamento

​Tecnologias de ICR e OMR na versão para Linux e macOS

​Exemplo de código para interface de linha de comando (CLI)

​Processamento de PDF aprimorado

​Recriação aprimorada do layout do documento

​Otimização interna do processo para um processamento mais rápido

​Novas opções de digitalização no FRE para Windows

​Versões mais recentes do .NET Framework no FRE para Windows

​Funcionalidade completa

Comparação de documentos

Entrada de formatos do Office no Linux e Windows

Captura de MRZ

OCR (Optical Character Recognition) em japonês aprimorado

OCR (Optical Character Recognition) em árabe aprimorado

OCR (Optical Character Recognition) coreano aprimorado

Melhorias na qualidade do OCR (Optical Character Recognition) para texto próximo de carimbos e assinaturas

Novas opções de licenciamento

Tecnologias de ICR e OMR na versão para Linux e macOS

Exemplo de código para interface de linha de comando (CLI)

Processamento de PDF aprimorado

Recriação aprimorada do layout do documento

Otimização interna do processo para um processamento mais rápido

Novas opções de digitalização no FRE para Windows

Versões mais recentes do .NET Framework no FRE para Windows

Funcionalidade completa