sexta-feira, 5 de junho de 2009

Você não tem scanner?


Eu acho que tem. Se você tiver uma máquina fotográfica digital, então você tem scanner. Continue a ler e saberá porque.

Depois que eu aprendi a fazer isso abandonei meu scanner, já que esse método é muito mais rápido e com qualidade igual ou superior. Vamos lá: a primeira coisa que você vai precisar é de software de tratamento de imagens com OCR - Optical Character Recognition. O OCR é que vai "interpretar" os símbolos de uma figura (as letras da fotografia de um texto) e transformá-los em um texto "legível". Entre aspas porque a eficiência deste OCR é em torno de 80% (20% vocêe tem que corrigir à mão). Porém, não fica nada a dever ao OCR comum da HP, por exemplo, que tem o mesmo nível de eficiência e é muito mais lento.

O software que indico é um freeware chamado TopOCR. Depois de instalado, execute o programa. Ele trabalha com duas janelas: a TopOCR Image Window, onde abrimos a "fotografia" do texto, e a, TopOCR Image Text, à direita, onde ele disponibiliza o texto interpretado.

Antes de tudo execute o comando de Menu da janela Image (à esquerda): Settings>Language e selecione Portuguese. Nossa língua tem cedilha, til, acentos graves e circunflexos, etc. que complicam a vida do OCR. A verdade é que, na maioria das vezes, ele tem dificuldade em interpretar palavras desse tipo.



Pronto. Saque sua máquina fotográfica e comece a trabalhar. Eu, no caso, estou fazendo um resumo sobre a Teoria dos Jogos e aproveitei para postar essa dica. Como o conteúdo é um capítulo de um livro impresso, ia me tomar um tempo enorme digitar o que me interessa. Primeiro, fotografei todos os capítulos. Demorei 2 minutos para 18 páginas.



Em seguida, abri a primeira "fotografia" utilizando a Galeria de Fotos do Windows (Vista). Aproveitei e coloquei a fotografia na vertical e selecionei o parágrafo que que queria que fosse interpretado. Recortei, salvei como uma nova imagem, abri no TopOCR que, imediatamente, mostrou o resultado abaixo.



A interpretação do texto ficou péssima. Creio que não atingiu nem 50%. Mas a culpa foi minha. Vejamos porque:



1) O livro estava desalinhado e curvado para cima. Observe a linha reta azul que coloquei sobre a imagem;
2) Letras capituladas quase sempre não são interpretadas e atrapalham a interpretação da palavra a que pertencem (isso não é culpa minha);
3) Palavras com referências em sobrescrito (interinfluenciadas);
4) Se não for possível deixar o livro bem aberto tem que se tomar cuidado com a parte do meio, que pode sair sombreada e distorcida (no scanner normal também);
5) Não deixe "sujeiras" na imagem, como eu fiz na parte inferior.

Finalmente, você vai aprendendo com a prática. Para quem gosta de manuais (eu detesto), o TopOCR indica a leitura de dois tópicos (em inglês): "Setting up your camera" e "Optimal image capture with a camera".

Façamos uma nova tentativa!



Oberve que este texto está muito mais limpo, o que deve influenciar o resultado!



Ótimo! Observe que apenas o comentário de pé de página não foi reconhecido por ter uma fonte pequena demais.

2 comentários:

  1. estou usando o topOCR, e me parece que converte o parágrafo como uma coisa única. Alguém saberia me informar como inserir espaços a esquerda das linhas?

    ResponderExcluir
  2. Adorei a sua postagem, facilitou bastante o meu entendimento sobre o programa, já que estava tendo dificuldade para trabalhar com ele.... já sanei todas as minhas dúvidas.

    ResponderExcluir

Sua opinião é importante para mim!