Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Unicode quebrado em arquivos TXT e resultados do buscador #76

Open
xxggabriel opened this issue May 29, 2024 · 1 comment
Open

Unicode quebrado em arquivos TXT e resultados do buscador #76

xxggabriel opened this issue May 29, 2024 · 1 comment

Comments

@xxggabriel
Copy link

Problema: Mojibake em Arquivos TXT e Resultados do Buscador

Ao analisar alguns diários, notei que alguns arquivos TXT e resultados do buscador contêm mojibake, enquanto os arquivos PDF estão normais.

Contexto

Mojibake ocorre frequentemente devido a problemas de codificação ao ler ou escrever arquivos de texto. Uma recomendação comum em fóruns é adicionar o atributo encoding='utf-8' na função open() do Python. A partir do Python 3.7, o encoding padrão utilizado pela função open() é o encoding padrão do sistema, que pode variar dependendo do sistema operacional. No entanto, é sempre uma boa prática especificar explicitamente o encoding ao abrir um arquivo para garantir a portabilidade e evitar problemas de codificação. Acredito que apenas especificar o encoding não resolverá completamente o problema.

Solução Proposta

Encontrei uma biblioteca chamada Ftfy que corrige Unicode quebrado de maneira eficiente. Gostaria de implementar uma função que faça a limpeza de unicodes quebrados no retorno da função extract_text da classe ApacheTikaTextExtractor.

Exemplo de Conteúdo com Mojibake

Para replicar esse problema, você pode realizar uma busca por é. Abaixo está uma captura de tela exemplificando o problema:

Captura de Tela 2024-05-29 às 11 02 41

Ação

Gostaria de saber a opinião de vocês sobre a inclusão dessa funcionalidade e se há alguma consideração adicional que devo ter ao implementá-la. Acredito que essa correção pode melhorar significativamente a qualidade dos dados extraídos dos diários.

@ogecece
Copy link
Member

ogecece commented May 29, 2024

@xxggabriel muito provavelmente é uma boa sim!

Só uma coisa, alguns desses problemas podem ser de extração do "texto oculto do PDF" ou de "PDF imagem" e não tenha muito conteúdo real pra salvar. Mas vale a tentativa, com certeza.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Development

No branches or pull requests

2 participants