Pular para o conteúdo principal
Para criar uma skill de OCR, siga estas etapas:
  1. No Skill Catalog, clique no botão Create na barra de ferramentas.
  2. Selecione o tipo de skill OCR Skill. A caixa de diálogo Create OCR Skill será aberta.
  3. Na guia General, insira um nome e uma descrição para a nova skill.
  4. Na guia Languages:
    a. Na seção Allowed Languages, selecione um ou vários idiomas de reconhecimento de documentos. Durante o processamento, o idioma do documento será escolhido automaticamente entre os idiomas especificados na configuração. Observe que a quantidade de idiomas selecionados pode afetar a velocidade e a qualidade do reconhecimento.
    b. Se o documento contiver texto manuscrito, habilite a opção Handwritten na seção Text Appearance.
  5. Na guia Image Enhancements, Crop Image e Correct Page Orientation vêm habilitados por padrão. Opcionalmente, desative esses recursos se seus documentos não precisarem deles.
    Crop Image recorta a imagem até as bordas do documento original. Correct page orientation gira automaticamente a imagem para restaurar sua orientação original.
  6. Na guia Barcodes, habilite os tipos de código de barras que podem aparecer nos seus documentos. A quantidade de tipos de código de barras selecionados pode afetar a velocidade de reconhecimento.
    Importante! Se você estiver processando vários arquivos de documentos usando uma skill de OCR como parte de uma única transação, todos os arquivos serão mesclados em um só. Como resultado, a quantidade de arquivos de saída será idêntica à quantidade especificada de formatos de exportação.
  7. Na guia Export, selecione um ou vários formatos de exportação de documentos. Para mais informações, consulte Available Export Formats.

Formatos de exportação disponíveis

  • JSON (formato padrão):
    • Somente texto (opção padrão). O arquivo JSON exportado conterá apenas o texto reconhecido, sem preservar o layout do documento. Se você selecionar Somente texto, não será possível exportar para DOCX, XLSX e PPTX.
    • Preservar estrutura do documento. O arquivo JSON exportado conterá o texto reconhecido e o layout do documento também será preservado.
  • XML:
    • Somente texto. O arquivo XML exportado conterá apenas o texto reconhecido. O layout do documento não será preservado. Se você selecionar Somente texto, não será possível exportar para DOCX, XLSX e PPTX.
    • Preservar estrutura do documento. O arquivo XML exportado conterá o texto reconhecido e o layout do documento será preservado.
  • ALTOXML:
    • Somente texto. O arquivo ALTO XML exportado conterá apenas o texto reconhecido; o layout do documento não será preservado. Se você selecionar Somente texto, não será possível exportar para DOCX, XLSX e PPTX.
    • Preservar estrutura do documento. O arquivo ALTO XML exportado conterá o texto reconhecido e o layout do documento será preservado.
Importante! As opções de exportação (Somente texto e Preservar estrutura do documento) para JSON, XML e ALTOXML não podem ser diferentes. Se você especificar outra opção de exportação para um desses formatos, essa opção será aplicada aos demais formatos.
  • PDF:
    • PDF/A-3a (formato padrão de exportação de PDF)
    • PDF/A-3b
    • Somente imagem. PDF não editável no padrão PDF/A-3b
Dica: Para cada opção de exportação de PDF, escolha entre “tamanho de arquivo menor” (opção padrão) e “qualidade máxima”. O tamanho de arquivo menor é obtido com a compactação Mixed Raster Content (MRC), que define taxas ideais de compactação separadamente para o texto, as imagens e o plano de fundo.
  • TXT
  • DOCX (Microsoft Word):
    • Editável. O arquivo DOCX exportado preserva o formato original e o fluxo do texto, mas, ao mesmo tempo, permite edição fácil. O documento de saída pode diferir da imagem original.
    • Exato. O arquivo DOCX exportado mantém a formatação do documento original. Isso pode limitar as alterações que podem ser feitas no texto e na formatação do documento de saída.
  • XLSX (Microsoft Excel)
  • TIFF
  • JPEG:
    • Qualidade máxima. O arquivo exportado contém um JPEG com nível de compactação de 95%.
    • Tamanho reduzido. O arquivo exportado contém um JPEG com nível de compactação de 75%.
  • PPTX (Microsoft PowerPoint)
  • HTML