Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Tradução de lição: "OCR com Google Vision API e Tesseract" #575

Open
DanielAlvesLABDH opened this issue Jul 13, 2023 · 32 comments
Open

Comments

@DanielAlvesLABDH
Copy link
Contributor

DanielAlvesLABDH commented Jul 13, 2023

O Programming Historian em Português recebeu a proposta de tradução da lição OCR with Google Vision API and Tesseract. Agradeço ao @techdonne pela proposta. Já fiz uma primeira revisão da mesma. @anisa-hawes irá fazer as verificações necessárias. Irei convidar um editor para acompanhar a revisão desta tradução.
A @saletefarias ficará como uma das revisoras, uma vez que esta tradução resultou de um trabalho de um dos seus alunos. Agradeço a colaboração da Salete e da sua turma do Instituto Federal de Educação Tecnológica do Maranhão.

@anisa-hawes
Copy link
Contributor

anisa-hawes commented Jul 14, 2023

Obrigada, @DanielAlvesLABDH.

Pode encontrar os ficheiros principais aqui:

E pode consultar a pré-visualização da lição aqui:

@DanielAlvesLABDH
Copy link
Contributor Author

O @ericbrasiln aceitou ficar como editor desta proposta de tradução. Ele conduzirá o processo e irá fazer os convites para a segunda revisão. Muito obrigado!

@DanielAlvesLABDH
Copy link
Contributor Author

Obrigado @anisa-hawes

@anisa-hawes anisa-hawes moved this to 1 Submission in Active Lessons Jul 14, 2023
@saletefarias
Copy link
Collaborator

Olá Daniel, os meus alunos acharam super interessante o projeto PH. Espero no futuro, com outras turmas, continuar a apoiar o projeto. Estou de férias este mês mas assim que retornar para as demandas diárias inicio o processo de revisão. Abraços.

@anisa-hawes anisa-hawes moved this from 1 Submission to 2 Initial Edit in Active Lessons Aug 9, 2023
@ericbrasiln
Copy link
Member

Bom dia @DanielAlvesLABDH e @saletefarias
Será ótimo termos essa lição traduzida para o português!

Gostaria apenas de fazer alguns comentários antes que a revisão por pares se inicie. E seria fundamental que o/a tradutor/a estivesse marcado aqui (Daniel, acho que o @ não está correto).

Na versão en português, nomes de objetos, classes e funções associadas à biblioteca google-cloud-vision e google-cloud-storage foram traduzidos, e isso impossibilita do código ser executado.

Por exemplo, na linha 280, a tradução está assim:

os.environ['CREDENCIAIS_DA_APLICAÇÃO_DO_GOOGLE'] = 'PATH/PARA/SUA/ChaveDaContaDeServico.json'

Mas o termo GOOGLE_APPLICATION_CREDENTIALS não pode ser traduzido, pois é uma variável específica do sistema que deve ser definida.

Outro exemplo, na linha 321:

gcs_de_origem = vision.Gcsde_origem(uri=gcs_de_origem_uri)

O termo vision.Gcsde_source() não pode ser traduzido, pois é um função de vision.

Essa questão se repete em vários pontos da tradução, o que indica que os códigos não foram executados após serem traduzidos.

Eu sugiro que antes de iniciarmos a revisão por pares, o/a tradutor/a realize as correções no código e se certifique de que ele roda perfeitamente.

Abraços

@DanielAlvesLABDH
Copy link
Contributor Author

Obrigado pelo comentário atento @ericbrasiln. O nome do utilizador do colega está correcto, acho é que ele ainda não aceitou o convite para o repositório que enviei há algum tempo atrás. @saletefarias você poderia ver com os seus alunos estas questões antes de iniciarmos o processo de revisão? Obrigado!

@programacaosuprema
Copy link
Collaborator

@DanielAlvesLABDH Olá peço desculpas pelo erro,
vou verificar e corrigi-lo.

@DanielAlvesLABDH
Copy link
Contributor Author

Obrigado Daniel @techdonne

@DanielAlvesLABDH
Copy link
Contributor Author

Olá @techdonne, já conseguiu corrigir o ficheiro? @ericbrasiln e @saletefarias, assim que o Daniel concluir essas edições iniciais vocês podem começar a revisão? Obrigado a todos

@DanielAlvesLABDH
Copy link
Contributor Author

Olá @ericbrasiln, o Daniel Araújo já enviou nova versão da tradução e substitui os ficheiros md. Penso que agora podemos iniciar o processo. Falta convidar um segundo revisor.
Aproveito para pedir ao @techdonne que faça as futuras alterações ao ficheiro md, sugeridas no processo de revisão, usando o GitHub e fazendo commits directos aqui: https://github.com/programminghistorian/ph-submissions/blob/gh-pages/pt/esbocos/traducoes/ocr-com-google-vision-e-tesseract.md
Não há necessidade de enviar ficheiros por email. Obrigado e abraço

@programacaosuprema
Copy link
Collaborator

programacaosuprema commented Nov 3, 2023 via email

@ericbrasiln
Copy link
Member

Bom dia a todas e todos.

O @alessonrota aceitou participar como revisor da tradução, assim podemos avançar com o processo.

Agradeço ao @techdonne pela tradução e a @saletefarias e @alessonrota por aceitarem colaborar com a revisão.

Peço para avaliarem a tradução para o português, assim como se há necessidade de adequação de dados ou algum conteúdo. Por favor, deixem suas sugestões neste ticket. Para cada modificação a ser sugerida, por favor, peço para indicar as linha de maneira que facilite os ajustes do tradutor. O ideal é realizar as modificações após as sugestões dos dois revisores.

Todos os membros da comunidade estão convidados a oferecer feedback construtivo que deve ser publicado neste canal, mas é solicitado que leiam primeiro as diretrizes para revisores e sigam a nossa política anti-assédio (abaixo). Pedimos que todas as revisões parem após o envio da segunda revisão formal para que o/a autor/tradutor(a) possa concentrar-se no ajuste da lição. Eu farei um anúncio neste tópico quando isso ocorrer.

Vou me esforçar para manter a conversa aberta aqui no GitHub, mas se alguém sentir a necessidade de discutir algo em particular, pode entrar em contato comigo, ou pode sempre recorrer para o nosso mediador independente se achar necessário.

Se houver alguma preocupação da tradutora, ele pode entrar em contato com o mediador do PH em português (Luís Ferla).


Política anti-assédio

Esta é uma declaração de princípios do Programming Historian em português e define o tom e estilo de toda a comunicação entre revisores, autores, editores e participantes.

O Programming Historian em português dedica-se a criar um ambiente académico aberto em que os membros da comunidade podem examinar em liberdade e detalhadamente ideias, fazer perguntas, sugestões ou pedir esclarecimentos. Este espaço tem que ser livre de assédio para todos no projeto, independentemente do género, identidade e expressão de género, orientação sexual, deficiência, aparência física, raça, idade, religião ou experiência técnica. Não é tolerado qualquer assédio ou ataque ad hominem a membros da comunidade de nenhuma forma. Os membros que violarem estas regras podem ser expulsos da comunidade, por avaliação do conselho editorial. Se alguém testemunhar ou sentir que foi vítima das atividades descritas acima, entre em contato com o nosso mediador independente. Obrigado por nos ajudar a criar um espaço seguro.

@ericbrasiln ericbrasiln moved this from 2 Initial Edit to 4 Open Peer Review in Active Lessons Nov 7, 2023
@DanielAlvesLABDH
Copy link
Contributor Author

Maravilha! Bom trabalho a todos/as. E muito obrigado pela colaboração!

@alessonrota
Copy link
Collaborator

alessonrota commented Nov 24, 2023

Caras e caros amigos, finalizei hoje a revisão. Aqui vão meus apontamentos.

1 A tradução parece acurada, capturando todos os aspectos importantes do texto original em inglês e apresentando-os de maneira compreensível em português.

2 O link para os ficheiros do git está vazio

3 No item “OCR com Tesseract” salientar que a biblioteca OCRmyPDF não é nativa e precisa ser instalada.

4 Seria importante recomendar um interpretador python local ou especificar a configuração de diretorios na nuvem.

5 No ambiente windows, para o tesseract funcionar é necessário instalar a pré-compilação. Aqui funcionou porque tem o requisito. Vocês conseguiram sem?

Obrigado :)

@ericbrasiln
Copy link
Member

Bom dia, colegas.

Obrigado @alessonrota pela revisão.

@techdonne , por favor aguarde as revisões da @saletefarias para iniciar as mudanças no ficheiro.

Qualquer dúvida, pode me marcar.

Abraços

@saletefarias
Copy link
Collaborator

estou a finalizar o segundo semestre de aulas aqui no Brasil, e avançarei com esta revisão no final deste mês

@ericbrasiln
Copy link
Member

@saletefarias
Como vai?

Algum avanço com a revisão?
Abraços

@saletefarias
Copy link
Collaborator

saletefarias commented Apr 27, 2024

Prezados colegas,

Espero que estejam todos bem. Gostaria de me desculpar pelo atraso em responder, mas gostaria de compartilhar com vocês o motivo. Recentemente, fui diagnosticada com uma lesão no cotovelo (epicondilite lateral do cotovelo), uma LER (lesão por esforço repetitivo), uma doença do trabalho mesmo. Esse período tem sido desafiador para mim, já que precisei reduzir drasticamente o uso do mouse e do computador. Para vocês terem uma ideia, eu não conseguia abrir uma garrafa de água, ou segurar uma xícara de café cheia, ou girar uma maçaneta de porta, sem sentir dor. Alguns movimentos eu não conseguia nem realizar.
As dores intensas começaram no final do ano passado e, paralelamente a isso, estava envolvida nos trâmites finais para a defesa do meu Doutorado. Quanto ao PhD, está quase concluído. Em relação às dores, após várias sessões de fisioterapia e uma intervenção médica realizada hoje, estou gradualmente retornando às atividades com o computador. Com isso, conseguirei concluir a revisão em breve.

Agradeço pela compreensão

@ericbrasiln
Copy link
Member

Oi @saletefarias
Obrigado peo retorno e fique tranquila quanto à revisão, em priemiro lugar vem nossa saúde física e mental.

Qualquer coisa é só avisar por aqui.
Abraços e melhoras rápidas.

@ericbrasiln
Copy link
Member

Prezada @saletefarias
Espero que esteja melhor.

Pensando em ampliar nosso quadro de revisores e evitar sobrecarregar de coloegas que têm contribuído muito com o projeto nos últimos anos (como é o seu caso), gostaria de propor uma nova revisora para essa tradução, caso você ainda não tenha iniciado sua revisão.

Se você concordar, marcarei a nova colaboradora aqui, e você teria menos sobrecarga nesse momento.

Abraços

@saletefarias
Copy link
Collaborator

Olá @ericbrasiln

Eu estou melhor sim. Agradeço a atenção e quero dizer que concordo sim com o convite a uma nova revisora. Eu estou em processo de preparação para a defesa da minha tese de doutoramento, que acontecerá na primeira quinzena de setembro e portanto estou mesmo sobrecarregada a tentar concluir minhas aulas para poder viajar e defender a tese, visto que a defesa é o exterior.

Agradeço a compreensão

@ericbrasiln
Copy link
Member

Bom dia @dianamsmpsantos

Agradeço o aceite para fazer a revisão.

Pode encontrar os ficheiros principais aqui:

E pode consultar a pré-visualização da lição aqui:

Os comentários e sugestões de alteração devem ser feitos aqui na issue em forma de comentário para que o tradutor @programacaosuprema possa visualizar e realizar as mudanças.

Qualquer dúvida, pode me marcar em um comentário aqui.
Abraços

@dianamsmpsantos
Copy link
Collaborator

dianamsmpsantos commented Aug 23, 2024 via email

@anisa-hawes
Copy link
Contributor

Olá @dianamsmpsantos,

Obrigada pelo seu comentário. É perfeito para escrever a sua revisão aqui!

Pode utilizar uma lista como esta:

- [ ] Sugestão
- [ ] Sugestão

que cria 'caixas de seleção':

  • Sugestão
  • Sugestão

Pode encontrar diretrizes para Revisores aqui https://programminghistorian.org/pt/directrizes-revisor

@dianamsmpsantos
Copy link
Collaborator

Vou tentar reescrever as sugestões que fiz no mail anterior aqui, a ver se é isto que pretendem:

  • [linha 36] que converte um PDF-> que converta um PDF
  • [linha 36] retirar "(entre outras)". Porque se dizemos "como" é porque são exemplos, haverá
    mais ferramentas... Ou então escrever "ferramentas como por exemplo"
  • [linha 36] permitiram -> permitem

É assim?

@anisa-hawes
Copy link
Contributor

Thank you, @dianamsmpsantos. This is a much clearer system! We would be grateful if you use that method. ☺️

@dianamsmpsantos
Copy link
Collaborator

Aqui está a minha revisão da tradução

  • [linha 36] que converte um PDF-> que converta um PDF
  • [linha 36] retirar "(entre outras)". Porque se dizemos "como" é porque são exemplos, haverá
    mais ferramentas... Ou então escrever "ferramentas como por exemplo"
  • [linha 36] permitiram -> permitem
  • [linha 38] Apesar dessas ótimas ferramentas,--> sugiro RETIRAR, e substituir por "Entretanto", ou
    "Contudo"
  • [linha 38] sem exigir qualquer entrada extra -> sem exigir trabalho extra
  • [linha 38] “prontas para uso” -> prontas a usar (porquê as aspas?) Em Portugal dizemos prontas a usar, mas se no Brasil se diz prontas para uso, tudo bem.
  • [linha 38] método “tamanho único” -> método geral ? método universal? método flexível?
  • [linha 40] O princípio da exploração de diferentes combinações de ferramentas -> Explorar diferentes combinações de ferramentas
  • [linha 40] para customizar fluxos de trabalho personalizados -> para fluxos de trabalho personalizados
  • [linha 40] amplamente aplicável -> muito utilizado/usado
  • [linha 40] quando nem sempre -> visto que nem sempre
  • [linha 42] poder deles combinados -> poder da sua combinação
  • [linha 48] demasiado palavroso! Substituir "Embora tenha suas limitações, o Google Vision tende a ser altamente preciso, mesmo em casos em que outras ferramentas podem ter dificuldades, como quando vários idiomas coexistem no mesmo texto. " por "Mesmo em casos em que outras ferramentas podem ter dificuldades, como quando vários idiomas coexistem no mesmo texto, o Google Vision tende a ser altamente preciso."
  • [linha 50] Geralmente, -> tirar a vírgula
  • [linha 51] Suporte a idiomas -> Idiomas em que funciona
  • [linha 51] "Substituir "No momento da escrita, o Google Vision oferece suporte completo a 60 idiomas. Além disso, 36 estão em desenvolvimento ativo e 133 estão mapeados para outro código de idioma ou para um reconhecedor de caracteres geral." por "O Google Vision funciona em 60 idiomas, estando 36 em desenvolvimento, e tendo 133 mapeados para outro código de idioma ou para um reconhecedor de caracteres geral."
  • [linha 51] Pode ser consultada a lista completa de idiomas suportados -> A lista completa de idiomas pode ser consultada
  • [linha 59] a potencial instabilidade da Plataforma Google Cloud pode ser observada -> note-se a potencial instabilidade da Plataforma Google Cloud.
  • [linha 61] deletar -> remover/retirar
  • [linha 61] Pode ser encontrado mais detalhes sobre o custo atual do Google Storage -> Mais detalhes sobre o custo atual do Google Storage podem ser encontrados
  • [linha 71] Suporte a idiomas -> Idiomas em que funciona
  • [linha 71] ele suporta mais de 110 idiomas -> o Tesseract funciona com mais de 110 idiomas
  • [linha 75] não tem uma performace tão boa com caracteres complexos (Por exemplo, caracteres históricos e ligaduras tipográficas) -> não tem um desempenho tão bom como o Google Cloud com caracteres complexos, como caracteres históricos e ligaduras tipográficas
  • [linha 79] o reconhecimento de - layout do Tesseract com o reconhecimento de caracteres do Google Vision - e -> retirar os -
  • [linha 81] Primeiro Método Combinado -> Primeiro método de combinação
  • [linha 83] ferramentas OCR -> ferramentas de OCR
  • [linha 85] qualquer mapeamento do facsimile/PDF de origem para o texto resultante é perdido -> se perde o mapeamento do facsimile/PDF de origem para o texto resultante
  • [linha 87] Segundo Método Combinado -> Segundo método de combinação
  • [linha 89] segundo método combinado -> segundo método de combinação
  • [linha 89] mas em vez de -> mas, em vez de
  • [linha 89] sequência de texto OCR fornecida -> sequência de texto reconhecida
  • [linha 91] texto OCR -> texto reconhecido pelo OCR
  • [linha 91] primeiro método combinado -> primeiro método de combinação
  • [linha 93] métodos combinados -> métodos de combinação
  • [linha 99] duas páginas _A sepultura -> duas páginas de _A sepultura
  • [linha 109] Método Combinado -> Método de Combinação
  • [linha 116] Os dois métodos combinados -> Os dois métodos de combinação
  • [linha 116] renderização -> apresentação
  • [linha 132] Método Combinado -> Método de Combinação
  • [linha 142] métodos combinados -> métodos de combinação
  • [linha 146] seções -> secções
  • [linha 154] Método Combinado -> Método de Combinação
  • [linha 154] II II -> II
  • [linha 160] A ferramenta -> Esta ferramenta
  • [linha 160] lê através das colunas -> lê sem distinguir as colunas
  • [linha 160] métodos combinados -> métodos de combinação
  • [linha 162] métodos combinados -> métodos de combinação
  • [linha 162] segundo método combinado -> segundo método de combinação
  • [linha 162] como o Google Vision lê através das colunas -> como o Google Vision não engtra em conta com as colunas
  • [linha 168] Caso não conheça o Python 3 completamente -> Caso não conheça bem a linguagem Python 3
  • [linha 170] Exemplo de Dataset -> Exemplo de dados
  • [linha 172] realização do OCR -> execução do OCR
  • [linha 180] Se houver ficheiros PDF -> Se tiver ficheiros PDF
  • [linha 184] operados pela -> invocados através da
  • [linha 217] com uma sobreposição de OCR. uma sobreposição de OCR (presumivelmente insatisfatória), -> com uma sobreposição de OCR. Como esta sobreposição é presumivelmente insatisfatória,
  • [linha 223] estão vinculadas abaixo -> são apresentadas abaixo
  • [linha 232] utilizar quaisquer créditos -> utilizar créditos
  • [linha 239] ao um projeto -> ao projeto
  • [linha 239] menu suspenso de função -> menu de função
  • [linha 243] feito o download -> descarregado
  • [linha 243] Ele é usado -> Ela é usada
  • [linha 247] fazer o upload de pastas ou ficheiros -> enviar pastas ou ficheiros
  • [linha 264] buckets (recepientes) -> recipientes (buckets)
  • [linha 264] fazer upload do ficheiro no -> enviar o ficheiro para o
  • [linha 433] podem ser consultados ou baixados -> podem ser consultados ou armazenados
  • [linha 500] a utilidade de linha de comando -> o programa de linha de comando
  • [linha 558] primeiro método combinado -> primeiro método de combinação
  • [linha 689] segundo método combinado -> segundo método de combinação
  • [linha 689] seção -> secção
  • [linha 732] Uma vez que essas coordenadas normalizadas da região são estabelecidas -> Logo que essas coordenadas normalizadas da região sejam estabelecidas
  • [linha 880] pagar por uma ferramenta licenciada -> pagar por uma ferramenta

Alguns comentários gerais: porquê usar "detecção" em vez de "deteção"? Porque não traduzir "layout" para "disposição gráfica"?

Espero que a minhas sugestões sejam úteis.
Diana

@ericbrasiln
Copy link
Member

Olá @dianamsmpsantos

Muito obrigado pela revisão cuidadosa.

No geral tentamos ao máximo utilizar termos compreensíveis para os falantes do português nos vários países que o tem como língua oficial. O termo detecção já foi utilizado em traduções assim como deteção, dependendo da nacionalidade do tradutor. Nesse caso, me parece uma variação que não impacta no sentido da palavra, e podemos mantê-la como proposta pelo tradutor.

Para o caso de layout, optamo por utilizar esse termo sempre no original em inglês a partir da terminologia proposta pela equipe do projeto (ela pode ser acessada aqui).

@ericbrasiln
Copy link
Member

Olá @programacaosuprema,

Agora contamos com duas revisões para a sua tradução e agradecemos pela paciência durante essa etapa.

Por favor, sinta-se à vontade para fazer as alterações necessárias e tirar quaisquer dúvidas diretamente conosco.

Assim que concluir as mudanças, por favor, me avise para que possamos seguir com o processo de publicação.

Abraços

@anisa-hawes anisa-hawes moved this from 4 Open Peer Review to 5 Revision 2 in Active Lessons Sep 13, 2024
@dianamsmpsantos
Copy link
Collaborator

dianamsmpsantos commented Sep 13, 2024 via email

@ericbrasiln
Copy link
Member

Olá @programacaosuprema,
Algum avanço sobre a incorporação das revisões?

@ericbrasiln
Copy link
Member

Olá @programacaosuprema,

Como vai? Temos alguma previsão para a incorporação das revisões sugeridas?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
Status: 5 Revision 2
Development

No branches or pull requests

7 participants