Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Adicionar segmentador para o diário da Associação de Municípios do Paraná #84

Open
trevineju opened this issue Oct 3, 2024 · 0 comments
Labels

Comments

@trevineju
Copy link
Member

trevineju commented Oct 3, 2024

Para o Querido Diário ter os municípios da Associação de Municípios do Rio Grande do Sul é necessário:

  • ✅: Ter o raspador para coletar os documentos no site da associação
  • Pendente: Ter, neste repositório, o segmentador para tratar os arquivos, fatiando um documento agregado em partes individuais para cada um dos municípios da associação

Tarefa

Esta associação usa um padrão conhecido e já em uso no repositório para a Associação de Alagoas. Então o caminho de implementação já existe, faltando criar o segmentador específico.

Modificações necessárias

  1. No diretório segmentation/segmenters/, criar um novo segmentador, que implementa o segmentador base AssociationSegmenter, como faz o al_associacao_municipios.py
  2. Adicionar um novo item em territory_to_segmenter_class do arquivo factory.py usando o mesmo TERRITORY_ID do raspador.

Como testar

Será necessário executar o raspador da associação para processar os documentos. Para isso, configure o repositório de raspadores e o data-processing de acordo com a documentação de configuração de ponta-a-ponta do QD.

Seu parser deve ser capaz de segmentar cada documento por prefeitura (atos de consórcios, associações, etc. devem ser ignorados por enquanto) e gerar novos arquivos .txt para cada uma.

Valide se os arquivos .txt gerados correspondem à segmentação esperada utilizando amostras.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Development

No branches or pull requests

1 participant