Scraping e tratamento de dados do Registo Nacional do Alojamento Local
Scraping por concelho, baseado num scraper anterior, sobre RoboBrowser, criado por João Antunes,
Na directoria de saída (configuarada em fetch_rnal_setup.py) é criada automaticamente uma nova pasta cujo nome se baseia na data e hora correntes. Dentro dessa pasta, o scraper coloca um CSV por concelho cujo nome tem a seguinte estrutura:
Down_<DICO>_<NOME>.csv
DICO é o código CAOP de 4 dígitos e NOME o nome do concelho em maiusculas.
Concelhos como Porto e Lisboa tem um número extremamente elevado de registos, o que obriga a dividir as operções de download em partes para evitar o cancelamento da ligação com o site. Nesse caso o nome inclui uma sigla de parte ...
Down_<DICO>_<NOME>_<PARTE>.csv
... que indica ano, ano e semestre ou ano e trimestre, consoante a necessidade.
python3 fetch_rnal.py (baixa os 308 concelhos)
python3 fetch_rnal.py -i 10 (baixa a partir do 11º inclusive)
python3 fetch_rnal.py -i 1 -f 10 (baixa do 2º ao 11º inclusive)
python3 fetch_rnal.py -i 150 -f 250 -x "1106, 1312" (baixa do 151º ao 251º excluíndo Lisboa e Porto)
Splinter (módulo Python -- pip install splinter)
- fetch_rnal_setup.py - configuração editável
- Concelhos_CAOP2018.csv - lista de todos os concelhos do país
NOTA IMPORTANTE: Antes de usar, não esquecer de configurar as vossas directorias de trabalho em fetch_rnal_setup.py !
A identificação dos concelhos e dos respectivos código DICOFRE encontra-se na página da Carta Administrativa de Portugal (CAOP) onde a podemos baixar a partir do link 'Informação extra'.