Skip to content

Código composto com Tesseract e PyPDF para reconhecimento de imagens e conversão em documentos .pdf

License

Notifications You must be signed in to change notification settings

alessonrota/OCR-to-PDF

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

Preparação do Ambiente

Instalação das Bibliotecas Necessárias:
    Você precisa ter Python instalado em seu sistema.
    Instale as bibliotecas necessárias usando pip:

pip install PyPDF2 numpy pytesseract

Instale o Tesseract OCR. Você pode baixá-lo aqui. Lembre-se de adicionar o caminho do Tesseract ao seu PATH ou especificar o caminho diretamente no seu script, como no seu código.

Configuração do Tesseract:

No código, você definiu o caminho para o executável do Tesseract. Certifique-se de que este caminho esteja correto para o seu sistema.

tesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-OCR/tesseract.exe"

Entendendo o Código

Importação das Bibliotecas:
    O código começa importando todas as bibliotecas necessárias.

Definição do Diretório de Entrada:
    files0 = os.listdir("D:/Banco de dados/entrada/"): Aqui, você define o diretório que contém os arquivos a serem processados.

Preparação para o Processamento:
    O código então prepara variáveis para o loop de processamento, como contadores e uma lista para armazenar os caminhos dos arquivos.

Loop Principal:
    Este é o loop que processa cada arquivo no diretório. Ele imprime informações sobre o progresso e processa cada diretório/arquivo um por um.

Selecionando e Processando Imagens:
    Dentro do loop, há outro loop que passa por cada arquivo no diretório atual, selecionando apenas arquivos .jpg. Cada imagem encontrada é adicionada a uma lista.

Criação de um Arquivo PDF:
    Para cada imagem, o código utiliza o pytesseract para convertê-la em PDF e então adiciona essa página a um objeto PdfFileWriter.

Salvando o Arquivo PDF:
    Após processar todas as imagens em um diretório, o código salva o PDF resultante no sistema de arquivos.

Atualização dos Contadores e Finalização:

Os contadores são atualizados para passar para o próximo arquivo, e o processo continua até que todos os arquivos sejam processados.

Executando o Código

Execute o Script:

Execute o script Python no seu ambiente. Certifique-se de que o diretório de entrada (D:/Banco de dados/entrada/) contenha os diretórios/arquivos que você deseja processar.
O script criará um arquivo PDF para cada diretório, contendo as imagens convertidas.

Observações

Verifique os Caminhos: Garanta que os caminhos do diretório e do Tesseract estejam corretos para o seu sistema.
Teste com um Diretório Pequeno Primeiro: Para garantir que tudo está funcionando, você pode querer começar com um diretório pequeno.
Erros e Correções: Se encontrar erros, verifique os caminhos, as permissões dos arquivos e se todas as dependências estão instaladas corretamente.

About

Código composto com Tesseract e PyPDF para reconhecimento de imagens e conversão em documentos .pdf

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages