You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Problema: Mojibake em Arquivos TXT e Resultados do Buscador
Ao analisar alguns diários, notei que alguns arquivos TXT e resultados do buscador contêm mojibake, enquanto os arquivos PDF estão normais.
Contexto
Mojibake ocorre frequentemente devido a problemas de codificação ao ler ou escrever arquivos de texto. Uma recomendação comum em fóruns é adicionar o atributo encoding='utf-8' na função open() do Python. A partir do Python 3.7, o encoding padrão utilizado pela função open() é o encoding padrão do sistema, que pode variar dependendo do sistema operacional. No entanto, é sempre uma boa prática especificar explicitamente o encoding ao abrir um arquivo para garantir a portabilidade e evitar problemas de codificação. Acredito que apenas especificar o encoding não resolverá completamente o problema.
Solução Proposta
Encontrei uma biblioteca chamada Ftfy que corrige Unicode quebrado de maneira eficiente. Gostaria de implementar uma função que faça a limpeza de unicodes quebrados no retorno da função extract_text da classe ApacheTikaTextExtractor.
Gostaria de saber a opinião de vocês sobre a inclusão dessa funcionalidade e se há alguma consideração adicional que devo ter ao implementá-la. Acredito que essa correção pode melhorar significativamente a qualidade dos dados extraídos dos diários.
The text was updated successfully, but these errors were encountered:
Só uma coisa, alguns desses problemas podem ser de extração do "texto oculto do PDF" ou de "PDF imagem" e não tenha muito conteúdo real pra salvar. Mas vale a tentativa, com certeza.
Problema: Mojibake em Arquivos TXT e Resultados do Buscador
Ao analisar alguns diários, notei que alguns arquivos TXT e resultados do buscador contêm mojibake, enquanto os arquivos PDF estão normais.
Contexto
Mojibake ocorre frequentemente devido a problemas de codificação ao ler ou escrever arquivos de texto. Uma recomendação comum em fóruns é adicionar o atributo
encoding='utf-8'
na funçãoopen()
do Python. A partir do Python 3.7, o encoding padrão utilizado pela funçãoopen()
é o encoding padrão do sistema, que pode variar dependendo do sistema operacional. No entanto, é sempre uma boa prática especificar explicitamente o encoding ao abrir um arquivo para garantir a portabilidade e evitar problemas de codificação. Acredito que apenas especificar o encoding não resolverá completamente o problema.Solução Proposta
Encontrei uma biblioteca chamada Ftfy que corrige Unicode quebrado de maneira eficiente. Gostaria de implementar uma função que faça a limpeza de unicodes quebrados no retorno da função
extract_text
da classeApacheTikaTextExtractor
.Exemplo de Conteúdo com Mojibake
Para replicar esse problema, você pode realizar uma busca por
é
. Abaixo está uma captura de tela exemplificando o problema:Ação
Gostaria de saber a opinião de vocês sobre a inclusão dessa funcionalidade e se há alguma consideração adicional que devo ter ao implementá-la. Acredito que essa correção pode melhorar significativamente a qualidade dos dados extraídos dos diários.
The text was updated successfully, but these errors were encountered: