Edite texto e extraia imagens de documentos digitalizados

Por: Gustavo Dias
Tempo de leitura: 9 min

Actualmente, existem diversas aplicações que permitem digitalizar documentos com um smartphone – é mesmo possível recortar automaticamente o texto ao identificar as extremidades da folha de papel. Esta é uma solução rápida para quem precise de digitalizar documentos, sendo esta solução bem mais acessível (e amiga do ambiente) que as tradicionais fotocópias.

Até aqui tudo bem, mas se precisar de um trabalho mais extenso, como reconhecimento de caracteres, ou até mesmo editar o texto digitalizado, terá de recorrer a outras soluções, como um scanner ou uma impressora multifunções. Assim, consegue controlar melhor a qualidade da digitalização, essencial para um reconhecimento de caracteres mais eficaz.

Claro que existem aplicações móveis com a capacidade de editar o texto digitalizado, bem como aproveitar imagens desses documentos, mas essas funções tendem a ser pagas. Vamos demonstrar como é possível desempenhar estas tarefas de forma gratuita, com o seu PC.

1 – Instalar Scanner do Windows
O Windows 10 tem uma ferramenta integrada designada de Fax e Scan , mas como o nome sugere, esta aplicação foi criada para fazer mais do que simplesmente digitalizar documentos, já que também conseguia digitalizar e enviar documentos por fax. Claro que utilizar um fax nos dias que correm é quase tão “moderno” como usar um pager. Percebemos isto facilmente pelo aspecto antiquado da interface da aplicação, que parece ter ficado parada no tempo… do Windows 7.

Felizmente, existe uma ferramenta mais actual, especialmente dedicada à “arte” da digitalização de documentos: a Scanner do Windows, que pode ser descarregada a partir da loja Microsoft. A aplicação identifica automaticamente o scanner ou impressora multifunções instalada, mas caso ocorra alguma falha, tem de ajustar as definições do Windows.

Para isso, aceda ao menu das ‘Definições’ > ‘Dispositivos’ e, no separador ‘Impressoras e Scanners’, clique em ‘Adicionar’ uma impressora ou um scanner. Garanta que a impressora está ligada à corrente e ao seu PC, via USB ou Wi-Fi. Após estar devidamente configurada, pode abrir a aplicação Scanner do Windows, que agora deve reconhecer automaticamente a sua impressora (ou scanner).

2 – Reconhecer texto da digitalização
À primeira vista, a aplicação parece ser simples, mas se indicar a origem específica da digitalização e clicar em ‘Mostrar Mais’, encontrará uma vasta lista de opções para configurar melhor a qualidade da digitalização, determinar o tipo de ficheiro, o modo de cores, a resolução e o destino do ficheiro dessa mesma digitalização.

Se o objectivo for apenas digitalizar texto, escusa de estar a abusar da resolução do scanner, habitualmente configurado automaticamente a 100 dpi, ou, em alguns casos, mesmo a 300. Basta escolher 75 dpi, caso contrário todo o processo de digitalização e reconhecimento poderá demorar demasiado tempo, já que este irá originar ficheiros demasiado grandes.

Coloque, então, o documento que quer digitalizar no scanner, feche a tampa e clique na opção ‘Pré-visualizar’ no Scanner do Windows – será feita uma digitalização rápida de baixa resolução para que possa escolher a área que deseja digitalizar, ao arrastar os cantos da zona de selecção. Depois disto, está na altura de escolher o formato PDF como tipo de ficheiro, pressionando de seguida ‘Digitalizar’. A aplicação irá fazer o scan da página, de acordo com as definições, guardando-a na pasta escolhida, sendo esta, por defeito, a de ‘Digitalizações’, dentro da pasta das imagens do Windows.

3 – Combinar várias páginas numa digitalização
Se quiser digitalizar um documento com várias páginas, o ideal será juntar essas mesmas páginas num só ficheiro, para simplificar o processo de edição do texto. Infelizmente, o Scanner do Windows não permite isso, já que cada página digitalizada irá gerar uma página PDF individual.

A solução é usar outro programa para agrupar esses ficheiros num só. O CombinePDF é gratuito e uma excelente solução. Por se tratar de uma ferramenta online, terá de aceder à página combinepdf.com, escolher a opção ‘Combine PDF’ e clicar no botão ‘Enviar’, para fazer upload dos ficheiros PDF.

Embora este serviço só permita combinar até vinte ficheiros de uma só vez, poderá ultrapassar essa limitação ao combinar os ficheiros que já juntou. Ou seja, se precisa de reunir quarenta ficheiros, poderá agrupar vinte ficheiros num primeiro PDF, e os restantes vinte, noutro.

4 – Converta documento em texto
Agora que já conseguiu combinar todos os ficheiros num só PDF, está na altura de iniciar o processo de conversão para texto editável. Mais uma vez, iremos usar uma ferramenta gratuita online que garantiu a melhor precisão de todas as opções que testámos. Uma forma de experimentar e comprovar se a ferramenta de reconhecimento de caracteres é boa, é utilizar uma lista com marcas, ou numerada, no documento.

A única aplicação gratuita que conseguiu reconhecer o nosso texto sem falhas foi o Online OCR. Esta tem apenas uma limitação: a necessidade de criar uma conta de utilizador, embora gratuita, sempre que precisar de converter documentos com múltiplas páginas. O limite são cinquenta, sendo que a partir daí terá de pagar.

Mesmo que necessite de digitalizar mais páginas, e esteja disposto a pagar os 4,95 dólares por cinquenta páginas adicionais, recomendamos que experimente, para já, a versão gratuita e confirme se o texto convertido corresponde ao original. Para iniciar o processo de conversão, apenas precisa de criar uma conta de utilizador e fazer o upload do ficheiro PDF.

Deverá, depois, escolher o idioma do texto, o formato de saída (escolha Microsoft Word.docx), quais as páginas que deseja converter e o tipo de documento em PDF utilizado (um PDF digitalizado, que implicará um processo mais pormenorizado de reconhecimento dos caracteres; ou um texto guardado em PDF, mais simples de processar.)

Clique no botão ‘Selecione arquivo’, escolha o ficheiro a enviar e inicie a conversão. O ficheiro convertido, em formato DOCX, poderá posteriormente ser editado com o Microsoft Word ou outro editor de texto à sua escolha.

5 – Extrair as imagens
Outra solução em que o scanner poderá ser útil é na extracção de imagens de documentos. O processo é bastante idêntico ao da digitalização de texto, precisando para tal de usar a aplicação Scanner do Windows – nas definições, escolha a resolução máxima (no nosso caso estamos limitados a 300 dpi) e o formato JPEG, como tipo de ficheiro de saída.

Clique em ‘Pré-visualizar’ para escolher a área que tem a imagem e clique em ‘Digitalizar’. A imagem, mais uma vez, ficará guardada na pasta ‘Digitalizações’.

Confirme se a resolução da imagem corresponde à escolhida, neste caso 2544 x 3504. Isto significa que tem uma resolução suficiente para ser impressa numa folha A3. Se lhe parece exagerado, não altere a resolução da digitalização, mas sim da própria imagem, para evitar perder detalhe, caso a queira imprimir. Se, em contrapartida, a resolução ficou abaixo do esperado, deverá regressar à aplicação Scanner do Windows e aumentar a resolução da digitalização, isto se o seu scanner, ou scanner da impressora multifunções, o permitir.

Seguir:
Editor da revista PCGuia, com mais de 10 anos no mercado de publicações tecnológicas. Grande adepto de tudo o que seja tecnológico, ficção científica e quatro rodas.
Exit mobile version