A padronizar_enderecos() contém, ainda, três parâmetros
-adicionais. O manter_cols_extras determina as colunas
-incluídas no output da função. Caso seja TRUE (valor
-padrão), todas as colunas do dataframe original são mantidas; caso seja
+
A padronizar_enderecos() contém, ainda, cinco parâmetros
+adicionais. O formato_estados e o
+formato_numeros controlam como os estados e números
+padronizados, respectivamente, devem ser formatados. Caso
+formato_estados seja "por_extenso" (valor
+padrão), a função retorna o nome dos estados por extenso; caso seja
+"sigla", os estados são padronizados conforme suas
+respectivas siglas. Por sua vez, caso formato_numeros seja
+"character", a função retorna os números padronizados como
+caracteres, preservando valores como "S/N", que possuem
+letras e outros dígitos que não podem ser convertidos para valores
+numéricos; caso seja "integer", no entanto, os números são
+retornados como valores inteiros. Caso algum valor não possa ser
+convertido para inteiro, a função o substitui por NA e
+lança um warning alertando sobre a situação. Os exemplos a seguir
+demonstram esses parâmetros detalhadamente:
+
+campos<-correspondencia_campos(
+ numero ="nroLogradouro",
+ estado ="uf_dom"
+)
+
+padronizar_enderecos(
+enderecos[, c("nroLogradouro", "uf_dom")],
+campos,
+ formato_estados ="por_extenso",
+ formato_numeros ="character"
+)
+#> nroLogradouro uf_dom numero_padr estado_padr
+#> <num> <char> <char> <char>
+#> 1: 20 rj 20 RIO DE JANEIRO
+
+padronizar_enderecos(
+enderecos[, c("nroLogradouro", "uf_dom")],
+campos,
+ formato_estados ="sigla",
+ formato_numeros ="integer"
+)
+#> nroLogradouro uf_dom numero_padr estado_padr
+#> <num> <char> <int> <char>
+#> 1: 20 rj 20 RJ
+
+# o exemplo abaixo gera um warning, pois o número não pode ser convertido para
+# inteiro de forma adequada
+
+padronizar_enderecos(
+data.table::data.table(numero ="12A 13B"),
+correspondencia_campos(numero ="numero"),
+ formato_numeros ="integer"
+)
+#> Warning in padronizar_enderecos(data.table::data.table(numero = "12A 13B"), : Alguns números não puderam ser convertidos para integer, introduzindo NAs no
+#> resultado.
+#> numero numero_padr
+#> <char> <int>
+#> 1: 12A 13B NA
+
O manter_cols_extras determina as colunas incluídas no
+output da função. Caso seja TRUE (valor padrão), todas as
+colunas do dataframe original são mantidas; caso seja
FALSE, apenas as colunas usadas na padronização e seus
respectivos resultados são preservados. O bloco abaixo demonstra essa
funcionalidade:
Padronização de m
logradouro da correspondencia_campos() deve
ser interpretado como o nome do logradouro. A seguir,
demonstramos essa funcionalidade:
-
+
enderecos<-data.frame( tipo ="r", logradouro ="ns sra da piedade",
@@ -216,7 +270,7 @@
Padronização de m
#> tipo logradouro nroLogradouro logradouro_completo_padr#> <char> <char> <num> <char>#> 1: r ns sra da piedade 20 RUA NOSSA SENHORA DA PIEDADE 20
-
O terceiro parâmetro, checar_tipos, tem efeito apenas
+
O quinto parâmetro, checar_tipos, tem efeito apenas
quando combinar_logradouro é TRUE, e deve ser
usado para sinalizar se a ocorrência de duplicatas entre os tipos e
nomes de logradouros deve ser verificada ao combiná-los (por exemplo,
@@ -224,7 +278,7 @@
Padronização de m
seja FALSE (valor padrão), a verificação não é feita; se
for TRUE, a verificação é realizada e valores duplicados
são removidos, como apresentado a seguir:
-
+
enderecos<-data.frame( tipo ="r", logradouro ="r ns sra da piedade",
@@ -258,7 +312,7 @@
Padronização de m
padronizar_enderecos(), recebe um dataframe com as
informações do logradouro (tipo, nome e número) e a correspondência
entre suas colunas e os campos a serem padronizados:
-
A padronizar_estados() aceita vetores de strings e
números. Caso numérico, o vetor deve conter o código
do IBGE de cada estado. Caso seja composto de strings, o vetor pode
-conter a sigla do estado, seu código ou seu nome por extenso. Nese caso,
-a função ainda aplica diversas manipulações para chegar a um valor
-padronizado, como a conversão de caracteres para caixa alta, remoção de
-acentos e caracteres não ASCII e remoção de espaços em branco antes e
-depois dos valores e de espaços em excesso entre palavras. O código
-abaixo apresenta exemplos de aplicação da função com vetores numéricos e
-de strings.
-
+conter a sigla do estado, seu código ou seu nome por extenso. O
+parâmetro formato controla como o output deve ser
+padronizado, se conforme a sigla de cada estado ("sigla")
+ou se conforme seu nome por extenso ("por_extenso", valor
+padrão). Quando recebe um vetor de strings, a função aplica diversas
+manipulações para chegar a um valor padronizado, como a conversão de
+caracteres para caixa alta, remoção de acentos e caracteres não ASCII e
+remoção de espaços em branco antes e depois dos valores e de espaços em
+excesso entre palavras. O código abaixo apresenta exemplos de aplicação
+da função.
+
Padronização de campos individua
apresentados a seguir), mas a função também verifica erros ortográficos
frequentemente observados nos nomes dos municípios (e.g. Moji Mirim
-> Mogi Mirim, Parati -> Paraty).
-
+
municipios<-c("3304557", "003304557", " 3304557 ", "RIO DE JANEIRO", "rio de janeiro","SÃO PAULO"
@@ -347,7 +407,7 @@
Padronização de campos individua
abreviações frequentemente utilizadas através de diversas expressões
regulares (regexes). O exemplo abaixo mostra algumas das muitas
abreviações usualmente empregadas no preenchimento de endereços.
-
+
bairros<-c("PRQ IND","NSA SEN DE FATIMA",
@@ -372,7 +432,7 @@
Padronização de campos individua
produz erros se recebe como input valores que não podem ser corretamente
convertidos em CEPs, como no caso de strings contendo caracteres não
numéricos e de strings com caracteres em excesso.
-
Padronização de campos individua
utilizadas e a corrigir alguns poucos erros de digitação, fora o
tratamento usual dado a strings, como conversão para caixa alta, remoção
de espaços em excesso e antes e depois das strings, etc.
-
+
logradouros<-c("r. gen.. glicério, 137","cond pres j. k., qd 05 lt 02 1",
@@ -411,14 +471,29 @@
Padronização de campos individua
A padronizar_numeros() tem como objetivo padronizar o
número do logradouro, caso este esteja em um campo separado do
logradouro propriamente dito. A função aceita vetores de números e
-strings e retorna um vetor de strings. Os tratamentos incluem a remoção
-de zeros à esquerda, remoção de espaços em branco em excesso e a
-substituição de variações de SN (sem número) por “S/N”.
-
+strings e retorna um vetor de strings ou inteiros, a depender do
+parâmetro formato (que pode receber os valores
+"character" e "integer", auto-explicativos).
+Os tratamentos incluem a remoção de zeros à esquerda, remoção de espaços
+em branco em excesso e a substituição de variações de SN (sem número)
+por “S/N”. Note que o equivalente de “S/N” quando o output é numérico é
+NA. Valores que não puderem ser adequadamente convertidos
+para inteiro também são substituídos por NA, o que é
+sinalizado por um warning.
+
numeros<-c("0210", "001", "1", "S N", "S/N", "SN", "0180 0181")padronizar_numeros(numeros)#> [1] "210" "1" "1" "S/N" "S/N" "S/N" "180 181"
+# o exemplo abaixo gera um warning, pois "0180 0181" não pode ser adequadamente
+# convertido para um único valor inteiro - as variações de S/N, por sua vez, já
+# seriam convertidas para NA
+numeros<-c("0210", "001", "1", "S N", "S/N", "SN", "0180 0181")
+padronizar_numeros(numeros, formato ="integer")
+#> Warning in padronizar_numeros(numeros, formato = "integer"): Alguns números não puderam ser convertidos para integer, introduzindo NAs no
+#> resultado.
+#> [1] 210 1 1 NA NA NA NA
+
numeros<-c(210, 1, 10000)padronizar_numeros(numeros)#> [1] "210" "1" "10000"
@@ -427,7 +502,7 @@
Padronização de campos individua
padronizar_tipos_de_logradouro(). Fora o tratamento usual
dado a strings, a função também expande abreviações frequentemente
observadas no campo de tipo de logradouro.
-
Padronização de campos individua
agindo de forma mais específica em abreviações e observações
frequentemente observados na especificação de complementos de
logradouros.
-
Herszenhut D, Pereira R, Mation L (2025).
enderecobr: Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer).
-R package version 0.3.0.9000,
+R package version 0.4.0.9000,
https://ipeagit.github.io/enderecobr/, https://github.com/ipeaGIT/enderecobr.
@Manual{,
title = {enderecobr: Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer)},
author = {Daniel Herszenhut and Rafael H. M. Pereira and Lucas Mation},
year = {2025},
- note = {R package version 0.3.0.9000,
+ note = {R package version 0.4.0.9000,
https://ipeagit.github.io/enderecobr/},
url = {https://github.com/ipeaGIT/enderecobr},
}
Corrigido bug na padronizar_numeros() em que zeros após o separador de milhares eram suprimidos. Por exemplo, “1.028” virava “1.28”. Relacionado ao issue #37.
+
Corrigido bug na padronizar_numeros() em que zeros de vetores numéricos não eram adequadamente transformados em “S/N”. Relacionado ao issue #38.
+
+
+
Novas funcionalidades
+
Novo argumento na padronizar_numeros(), formato, responsável por controlar como o resultado deve ser padronizado: se como um vetor de caracteres ou de inteiros.
+
Novo argumento na padronizar_numeros(), formato_numeros, que controla como deve ser feita a padronização de números dentro dessa função.
+
+
enderecobr 0.3.0
CRAN release: 2024-12-12
diff --git a/dev/pkgdown.yml b/dev/pkgdown.yml
index 72fb99b..986662a 100644
--- a/dev/pkgdown.yml
+++ b/dev/pkgdown.yml
@@ -3,7 +3,7 @@ pkgdown: 2.1.1
pkgdown_sha: ~
articles:
enderecobr: enderecobr.html
-last_built: 2025-01-13T20:31Z
+last_built: 2025-01-14T19:00Z
urls:
reference: https://ipeagit.github.io/enderecobr/reference
article: https://ipeagit.github.io/enderecobr/articles
diff --git a/dev/reference/codigos_estados.html b/dev/reference/codigos_estados.html
index 4fd4428..330622e 100644
--- a/dev/reference/codigos_estados.html
+++ b/dev/reference/codigos_estados.html
@@ -11,7 +11,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/codigos_municipios.html b/dev/reference/codigos_municipios.html
index fd8211b..8084370 100644
--- a/dev/reference/codigos_municipios.html
+++ b/dev/reference/codigos_municipios.html
@@ -11,7 +11,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/correspondencia_campos.html b/dev/reference/correspondencia_campos.html
index 4c21c82..64436cf 100644
--- a/dev/reference/correspondencia_campos.html
+++ b/dev/reference/correspondencia_campos.html
@@ -9,7 +9,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/correspondencia_logradouro.html b/dev/reference/correspondencia_logradouro.html
index ac2c54b..7a1a2cc 100644
--- a/dev/reference/correspondencia_logradouro.html
+++ b/dev/reference/correspondencia_logradouro.html
@@ -9,7 +9,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/enderecobr.html b/dev/reference/enderecobr.html
index 51083f1..a79eb5d 100644
--- a/dev/reference/enderecobr.html
+++ b/dev/reference/enderecobr.html
@@ -7,7 +7,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/index.html b/dev/reference/index.html
index d92dc6a..9e837c0 100644
--- a/dev/reference/index.html
+++ b/dev/reference/index.html
@@ -7,7 +7,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_bairros.html b/dev/reference/padronizar_bairros.html
index f6b8dc1..1fced6a 100644
--- a/dev/reference/padronizar_bairros.html
+++ b/dev/reference/padronizar_bairros.html
@@ -11,7 +11,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_ceps.html b/dev/reference/padronizar_ceps.html
index ab1fbd2..bcb4b07 100644
--- a/dev/reference/padronizar_ceps.html
+++ b/dev/reference/padronizar_ceps.html
@@ -9,7 +9,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_complementos.html b/dev/reference/padronizar_complementos.html
index ac9fddb..92b8d44 100644
--- a/dev/reference/padronizar_complementos.html
+++ b/dev/reference/padronizar_complementos.html
@@ -9,7 +9,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_enderecos.html b/dev/reference/padronizar_enderecos.html
index dc28fe9..c17259f 100644
--- a/dev/reference/padronizar_enderecos.html
+++ b/dev/reference/padronizar_enderecos.html
@@ -9,7 +9,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_estados.html b/dev/reference/padronizar_estados.html
index 7fa157c..cf45daa 100644
--- a/dev/reference/padronizar_estados.html
+++ b/dev/reference/padronizar_estados.html
@@ -11,7 +11,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_logradouros.html b/dev/reference/padronizar_logradouros.html
index 2173cb3..7b41a06 100644
--- a/dev/reference/padronizar_logradouros.html
+++ b/dev/reference/padronizar_logradouros.html
@@ -11,7 +11,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_logradouros_completos.html b/dev/reference/padronizar_logradouros_completos.html
index e468e88..50b0a88 100644
--- a/dev/reference/padronizar_logradouros_completos.html
+++ b/dev/reference/padronizar_logradouros_completos.html
@@ -11,7 +11,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_municipios.html b/dev/reference/padronizar_municipios.html
index c17765f..64868ba 100644
--- a/dev/reference/padronizar_municipios.html
+++ b/dev/reference/padronizar_municipios.html
@@ -11,7 +11,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_numeros.html b/dev/reference/padronizar_numeros.html
index 91947e8..b978f38 100644
--- a/dev/reference/padronizar_numeros.html
+++ b/dev/reference/padronizar_numeros.html
@@ -11,7 +11,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/reference/padronizar_tipos_de_logradouro.html b/dev/reference/padronizar_tipos_de_logradouro.html
index 74d0a0e..13728ba 100644
--- a/dev/reference/padronizar_tipos_de_logradouro.html
+++ b/dev/reference/padronizar_tipos_de_logradouro.html
@@ -9,7 +9,7 @@
enderecobr
- 0.3.0.9000
+ 0.4.0.9000
diff --git a/dev/search.json b/dev/search.json
index 59a87a9..2c9ce68 100644
--- a/dev/search.json
+++ b/dev/search.json
@@ -1 +1 @@
-[{"path":"https://ipeagit.github.io/enderecobr/dev/LICENSE.html","id":null,"dir":"","previous_headings":"","what":"MIT License","title":"MIT License","text":"Copyright (c) 2024 Ipea Permission hereby granted, free charge, person obtaining copy software associated documentation files (“Software”), deal Software without restriction, including without limitation rights use, copy, modify, merge, publish, distribute, sublicense, /sell copies Software, permit persons Software furnished , subject following conditions: copyright notice permission notice shall included copies substantial portions Software. SOFTWARE PROVIDED “”, WITHOUT WARRANTY KIND, EXPRESS IMPLIED, INCLUDING LIMITED WARRANTIES MERCHANTABILITY, FITNESS PARTICULAR PURPOSE NONINFRINGEMENT. EVENT SHALL AUTHORS COPYRIGHT HOLDERS LIABLE CLAIM, DAMAGES LIABILITY, WHETHER ACTION CONTRACT, TORT OTHERWISE, ARISING , CONNECTION SOFTWARE USE DEALINGS SOFTWARE.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/articles/enderecobr.html","id":"instalação","dir":"Articles","previous_headings":"","what":"Instalação","title":"enderecobr: padronizador de endereços brasileiros","text":"última versão estável pode ser baixada CRAN com o comando seguir: Caso prefira, versão em desenvolvimento também pode ser usada. Para isso, use o seguinte comando:","code":"install.packages(\"enderecobr\") # install.packages(\"remotes\") remotes::install_github(\"ipeaGIT/enderecobr\")"},{"path":"https://ipeagit.github.io/enderecobr/dev/articles/enderecobr.html","id":"utilização","dir":"Articles","previous_headings":"","what":"Utilização","title":"enderecobr: padronizador de endereços brasileiros","text":"O enderecobr disponibiliza funções para padronizar os diversos campos de um endereço. Essas funções agem tanto sobre campos individuais quanto sobre um conjunto de campos. Vamos ver, primeiro, como funcionam funções que agem sobre múltiplos campos simultaneamente.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/articles/enderecobr.html","id":"padronização-de-múltiplos-campos-simultaneamente","dir":"Articles","previous_headings":"Utilização","what":"Padronização de múltiplos campos simultaneamente","title":"enderecobr: padronizador de endereços brasileiros","text":"padronizar_enderecos(), carro-chefe pacote, atua de forma simultânea sobre os vários campos que podem compor um endereço. Para isso, ela recebe um dataframe e correspondência entre suas colunas e os campos serem padronizados: Note que exemplo acima nós também utiliza função correspondencia_campos(), que facilita o processo de especificação de correspondência entre colunas dataframe e os campos endereço serem padronizados. Com ela, nós especificamos que coluna que contém informação de tipo de logradouro se chama \"tipo\", que coluna de número logradouro se chama \"nroLogradouro\", etc. Na prática, entanto, essa função é opcional, e poderíamos simplesmente passar um vetor de caracteres formato c(tipo_de_logradouro = \"tipo\", logradouro = \"logradouro\", ...). correspondencia_campos(), entanto, realiza alguns testes input, garantindo que o vetor ser passado pra padronizar_enderecos() esteja corretamente formatado. padronizar_enderecos() contém, ainda, três parâmetros adicionais. O manter_cols_extras determina colunas incluídas output da função. Caso seja TRUE (valor padrão), todas colunas dataframe original são mantidas; caso seja FALSE, apenas colunas usadas na padronização e seus respectivos resultados são preservados. O bloco abaixo demonstra essa funcionalidade: O combinar_logradouro, por sua vez, determina se os campos que compõem o logradouro (tipo, nome e número) devem ser combinados em um único campo padronizado de logradouro completo. Caso seja FALSE(valor padrão), os campos permanecem separados; se TRUE, são combinados. Nesse caso, o parâmetro logradouro da correspondencia_campos() deve ser interpretado como o nome logradouro. seguir, demonstramos essa funcionalidade: O terceiro parâmetro, checar_tipos, tem efeito apenas quando combinar_logradouro é TRUE, e deve ser usado para sinalizar se ocorrência de duplicatas entre os tipos e nomes de logradouros deve ser verificada ao combiná-los (por exemplo, quando o tipo é descrito como “RUA” e o nome como “RUA BOTAFOGO”). Caso seja FALSE (valor padrão), verificação não é feita; se TRUE, verificação é realizada e valores duplicados são removidos, como apresentado seguir: Os parâmetros combinar_logradouro e checar_tipos acionam, de forma oculta, outra função que lida com múltiplos campos simultaneamente: padronizar_logradouros_completos(). Essa função também pode ser usada de forma separada e, de forma similiar à padronizar_enderecos(), recebe um dataframe com informações logradouro (tipo, nome e número) e correspondência entre suas colunas e os campos serem padronizados: Note que, nesse caso, usamos função campos_do_logradouro() para estabelecer correspondência entre colunas e campos endereço, mas também poderíamos passar um vetor de caracteres argumento campos_do_logradouro. padronizar_logradouros_completos() também inclui os parâmetros manter_cols_extras e checar_tipos, que funcionam de forma idêntica aos parâmetros de mesmo nome da padronizar_enderecos().","code":"library(enderecobr) enderecos <- data.frame( id = 1, tipo = \"r\", logradouro = \"ns sra da piedade\", nroLogradouro = 20, complemento = \"qd 20\", cep = 25220020, bairro = \"jd botanico\", codmun_dom = 3304557, uf_dom = \"rj\" ) campos <- correspondencia_campos( tipo_de_logradouro = \"tipo\", logradouro = \"logradouro\", numero = \"nroLogradouro\", complemento = \"complemento\", cep = \"cep\", bairro = \"bairro\", municipio = \"codmun_dom\", estado = \"uf_dom\" ) padronizar_enderecos(enderecos, campos_do_endereco = campos) #> id tipo logradouro nroLogradouro complemento cep #> #> 1: 1 r ns sra da piedade 20 qd 20 25220020 #> bairro codmun_dom uf_dom tipo_de_logradouro_padr #> #> 1: jd botanico 3304557 rj RUA #> logradouro_padr numero_padr complemento_padr cep_padr #> #> 1: NOSSA SENHORA DA PIEDADE 20 QUADRA 20 25220-020 #> bairro_padr municipio_padr estado_padr #> #> 1: JARDIM BOTANICO RIO DE JANEIRO RIO DE JANEIRO campos <- correspondencia_campos( tipo_de_logradouro = \"tipo\", logradouro = \"logradouro\" ) padronizar_enderecos(enderecos, campos, manter_cols_extras = TRUE) #> id nroLogradouro complemento cep bairro codmun_dom uf_dom #> #> 1: 1 20 qd 20 25220020 jd botanico 3304557 rj #> tipo logradouro tipo_de_logradouro_padr logradouro_padr #> #> 1: r ns sra da piedade RUA NOSSA SENHORA DA PIEDADE padronizar_enderecos(enderecos, campos, manter_cols_extras = FALSE) #> tipo logradouro tipo_de_logradouro_padr logradouro_padr #> #> 1: r ns sra da piedade RUA NOSSA SENHORA DA PIEDADE enderecos <- data.frame( tipo = \"r\", logradouro = \"ns sra da piedade\", nroLogradouro = 20 ) campos <- correspondencia_campos( tipo_de_logradouro = \"tipo\", logradouro = \"logradouro\", numero = \"nroLogradouro\" ) padronizar_enderecos(enderecos, campos, combinar_logradouro = FALSE) #> tipo logradouro nroLogradouro tipo_de_logradouro_padr #> #> 1: r ns sra da piedade 20 RUA #> logradouro_padr numero_padr #> #> 1: NOSSA SENHORA DA PIEDADE 20 padronizar_enderecos(enderecos, campos, combinar_logradouro = TRUE) #> tipo logradouro nroLogradouro logradouro_completo_padr #> #> 1: r ns sra da piedade 20 RUA NOSSA SENHORA DA PIEDADE 20 enderecos <- data.frame( tipo = \"r\", logradouro = \"r ns sra da piedade\", nroLogradouro = 20 ) padronizar_enderecos( enderecos, campos, combinar_logradouro = TRUE, checar_tipos = FALSE ) #> tipo logradouro nroLogradouro logradouro_completo_padr #> #> 1: r r ns sra da piedade 20 RUA RUA NOSSA SENHORA DA PIEDADE 20 padronizar_enderecos( enderecos, campos, combinar_logradouro = TRUE, checar_tipos = TRUE ) #> tipo logradouro nroLogradouro logradouro_completo_padr #> #> 1: r r ns sra da piedade 20 RUA NOSSA SENHORA DA PIEDADE 20 campos <- correspondencia_logradouro( tipo_de_logradouro = \"tipo\", nome_do_logradouro = \"logradouro\", numero = \"nroLogradouro\" ) padronizar_logradouros_completos(enderecos, campos_do_logradouro = campos) #> tipo logradouro nroLogradouro logradouro_completo_padr #> #> 1: r r ns sra da piedade 20 RUA RUA NOSSA SENHORA DA PIEDADE 20"},{"path":"https://ipeagit.github.io/enderecobr/dev/articles/enderecobr.html","id":"padronização-de-campos-individuais","dir":"Articles","previous_headings":"Utilização","what":"Padronização de campos individuais","title":"enderecobr: padronizador de endereços brasileiros","text":"Por trás dos panos, tanto padronizar_enderecos() quanto padronizar_logradouros_completos() utilizam diversas outras funções que padronizam campos de forma individual. Cada uma delas recebe um vetor com valores não padronizados e retorna um vetor de mesmo tamanho com os respectivos valores padronizados. funções atualmente disponíveis são: padronizar_estados() padronizar_municipios() padronizar_bairros() padronizar_ceps() padronizar_logradouros() padronizar_numeros() padronizar_tipos_de_logradouro() padronizar_complementos() padronizar_estados() aceita vetores de strings e números. Caso numérico, o vetor deve conter o código IBGE de cada estado. Caso seja composto de strings, o vetor pode conter sigla estado, seu código ou seu nome por extenso. Nese caso, função ainda aplica diversas manipulações para chegar um valor padronizado, como conversão de caracteres para caixa alta, remoção de acentos e caracteres não ASCII e remoção de espaços em branco antes e depois dos valores e de espaços em excesso entre palavras. O código abaixo apresenta exemplos de aplicação da função com vetores numéricos e de strings. função de padronização de campos de município, padronizar_municipios(), funciona de forma muito semelhante, aceitando também valores numéricos representando os códigos dos municípios e strings. mesmas manipulações de remoção de espaços, conversão para caixa alta e conversão para caracteres são aplicadas (assim como nos demais tratamentos de vetores de strings que serão apresentados seguir), mas função também verifica erros ortográficos frequentemente observados nos nomes dos municípios (e.g. Moji Mirim -> Mogi Mirim, Parati -> Paraty). padronizar_bairros() trabalha exclusivamente com vetores de strings. Como os nomes de bairros são muito mais variados e, consequentemente, menos rigidamente controlados que os de estados e municípios, função se atém corrigir erros ortográficos e expandir abreviações frequentemente utilizadas através de diversas expressões regulares (regexes). O exemplo abaixo mostra algumas das muitas abreviações usualmente empregadas preenchimento de endereços. padronizar_ceps() é outro exemplo de função que trabalha com strings e números. Caso o input seja numérico, função verifica se os valores possuem comprimentos compatíveis com um CEP, adicionando zeros à esquerda se necessário (é muito comum que leitores de CSV, por exemplo, erroneamente leiam valores de CEP como números e excluam zeros à esquerda por considerá-los redundantes). Caso o input seja formado por strings, função remove caracteres que frequentemente são usados para separar partes CEP (e.g. pontos, vírgulas, espaços em branco) e verifica se o hífen separando os cinco primeiros dígitos dos três últimos está presente, adicionando-o caso contrário. função ainda produz erros se recebe como input valores que não podem ser corretamente convertidos em CEPs, como caso de strings contendo caracteres não numéricos e de strings com caracteres em excesso. tarefa de padronizar logradouros é mais complexa dentre apresentadas até aqui, uma vez que o campo de logradouro é o que apresenta maior variabilidade de input. padronizar_logradouros(), portanto, assim como função de padronização de bairros, se limita expandir abreviações frequentemente utilizadas e corrigir alguns poucos erros de digitação, fora o tratamento usual dado strings, como conversão para caixa alta, remoção de espaços em excesso e antes e depois das strings, etc. padronizar_numeros() tem como objetivo padronizar o número logradouro, caso este esteja em um campo separado logradouro propriamente dito. função aceita vetores de números e strings e retorna um vetor de strings. Os tratamentos incluem remoção de zeros à esquerda, remoção de espaços em branco em excesso e substituição de variações de SN (sem número) por “S/N”. Outra função que atua sobre uma informação específica logradouro, caso essa seja fornecida separadamente, é padronizar_tipos_de_logradouro(). Fora o tratamento usual dado strings, função também expande abreviações frequentemente observadas campo de tipo de logradouro. Por fim, padronizar_complementos() age de forma similar às funções de padronização de logradouros e bairros, porém agindo de forma mais específica em abreviações e observações frequentemente observados na especificação de complementos de logradouros.","code":"estados <- c(\"21\", \" 21\", \"MA\", \" MA \", \"ma\", \"MARANHÃO\") padronizar_estados(estados) #> [1] \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" estados <- c(21, 32) padronizar_estados(estados) #> [1] \"MARANHAO\" \"ESPIRITO SANTO\" municipios <- c( \"3304557\", \"003304557\", \" 3304557 \", \"RIO DE JANEIRO\", \"rio de janeiro\", \"SÃO PAULO\" ) padronizar_municipios(municipios) #> [1] \"RIO DE JANEIRO\" \"RIO DE JANEIRO\" \"RIO DE JANEIRO\" \"RIO DE JANEIRO\" #> [5] \"RIO DE JANEIRO\" \"SAO PAULO\" municipios <- 3304557 padronizar_municipios(municipios) #> [1] \"RIO DE JANEIRO\" municipios <- c(\"PARATI\", \"MOJI MIRIM\") padronizar_municipios(municipios) #> [1] \"PARATY\" \"MOGI MIRIM\" bairros <- c( \"PRQ IND\", \"NSA SEN DE FATIMA\", \"ILHA DO GOV\", \"VL OLIMPICA\", \"NUC RES\" ) padronizar_bairros(bairros) #> [1] \"PARQUE INDUSTRIAL\" \"NOSSA SENHORA DE FATIMA\" #> [3] \"ILHA DO GOVERNADOR\" \"VILA OLIMPICA\" #> [5] \"NUCLEO RESIDENCIAL\" ceps <- c(\"22290-140\", \"22.290-140\", \"22290 140\", \"22290140\") padronizar_ceps(ceps) #> [1] \"22290-140\" \"22290-140\" \"22290-140\" \"22290-140\" ceps <- c(22290140, 1000000) padronizar_ceps(ceps) #> [1] \"22290-140\" \"01000-000\" padronizar_ceps(\"2229014a\") #> Error in `padronizar_ceps()`: #> ! CEP não deve conter letras. #> ℹ O elemento com índice 1 possui letras. padronizar_ceps(\"022290140\") #> Error in `padronizar_ceps()`: #> ! CEP não deve conter mais que 8 dígitos. #> ℹ O elemento com índice 1 possui mais que 8 dígitos após padronização. logradouros <- c( \"r. gen.. glicério, 137\", \"cond pres j. k., qd 05 lt 02 1\", \"av d pedro I, 020\" ) padronizar_logradouros(logradouros) #> [1] \"RUA GENERAL GLICERIO, 137\" #> [2] \"CONDOMINIO PRESIDENTE JUSCELINO KUBITSCHEK, QUADRA 5 LOTE 2 1\" #> [3] \"AVENIDA DOM PEDRO I, 20\" numeros <- c(\"0210\", \"001\", \"1\", \"S N\", \"S/N\", \"SN\", \"0180 0181\") padronizar_numeros(numeros) #> [1] \"210\" \"1\" \"1\" \"S/N\" \"S/N\" \"S/N\" \"180 181\" numeros <- c(210, 1, 10000) padronizar_numeros(numeros) #> [1] \"210\" \"1\" \"10000\" tipos <- c(\"r\", \"R.\", \"AVN\", \"AVE\", \"JDM\", \"QD\") padronizar_tipos_de_logradouro(tipos) #> [1] \"RUA\" \"RUA\" \"AVENIDA\" \"AVENIDA\" \"JARDIM\" \"QUADRA\" complementos <- c(\"QD1 LT2 CS3\", \"APTO. 405\", \"PRX CX POST 450\") padronizar_complementos(complementos) #> [1] \"QUADRA 1 LOTE 2 CASA 3\" \"APARTAMENTO 405\" #> [3] \"PROXIMO CAIXA POSTAL 450\""},{"path":"https://ipeagit.github.io/enderecobr/dev/articles/enderecobr.html","id":"controle-de-verbosidade","dir":"Articles","previous_headings":"Utilização","what":"Controle de verbosidade","title":"enderecobr: padronizador de endereços brasileiros","text":"O disparo de mensagens com informações sobre execução das funções pode ser controlado pela opção enderecobr.verbose, que recebe os valores \"quiet\" ou \"verbose\", como demonstrado seguir:","code":"campos <- correspondencia_logradouro( nome_do_logradouro = \"logradouro\", numero = \"nroLogradouro\" ) # quieto, por padrão res <- padronizar_logradouros_completos(enderecos, campos) # verboso, se desejado rlang::local_options(\"enderecobr.verbose\" = \"verbose\") res <- padronizar_logradouros_completos(enderecos, campos) #> ✔ Padronizando nomes dos logradouros... [130ms] #> ✔ Padronizando números... [111ms] #> ✔ Trazendo números para o logradouro completo... [107ms]"},{"path":"https://ipeagit.github.io/enderecobr/dev/authors.html","id":null,"dir":"","previous_headings":"","what":"Authors","title":"Authors and Citation","text":"Daniel Herszenhut. Author, maintainer. Rafael H. M. Pereira. Author. Lucas Mation. Author.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/authors.html","id":"citation","dir":"","previous_headings":"","what":"Citation","title":"Authors and Citation","text":"Herszenhut D, Pereira R, Mation L (2025). enderecobr: Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer). R package version 0.3.0.9000, https://ipeagit.github.io/enderecobr/, https://github.com/ipeaGIT/enderecobr.","code":"@Manual{, title = {enderecobr: Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer)}, author = {Daniel Herszenhut and Rafael H. M. Pereira and Lucas Mation}, year = {2025}, note = {R package version 0.3.0.9000, https://ipeagit.github.io/enderecobr/}, url = {https://github.com/ipeaGIT/enderecobr}, }"},{"path":"https://ipeagit.github.io/enderecobr/dev/index.html","id":"enderecobr-","dir":"","previous_headings":"","what":"Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer)","title":"Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer)","text":"enderecobr é um pacote de R que permite padronizar endereços brasileiros partir de diferentes critérios. Os métodos de padronização atualmente incluem apenas manipulações de strings, não oferecendo suporte correspondências probabilísticas entre strings.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/index.html","id":"instalação","dir":"","previous_headings":"","what":"Instalação","title":"Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer)","text":"última versão estável pode ser baixada CRAN com o comando seguir: Caso prefira, versão em desenvolvimento também pode ser usada. Para isso, use o seguinte comando:","code":"install.packages(\"enderecobr\") # install.packages(\"remotes\") remotes::install_github(\"ipeaGIT/enderecobr\")"},{"path":"https://ipeagit.github.io/enderecobr/dev/index.html","id":"utilização","dir":"","previous_headings":"","what":"Utilização","title":"Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer)","text":"Esta seção visa oferecer apenas uma visão geral das funcionalidades pacote. Para mais detalhes, leia vignette introdutória: enderecobr: padronizador de endereços brasileiros O enderecobr disponibiliza funções para padronizar diferentes campos de um endereço. padronizar_enderecos(), carro-chefe pacote, atua de forma simultânea sobre os vários campos que podem compor um endereço. Para isso, ela recebe um dataframe e correspondência entre suas colunas e os campos serem padronizados: Por trás dos panos, essa função utiliza diversas outras funções que padronizam campos de forma individual. Cada uma delas recebe um vetor com valores não padronizados e retorna um vetor de mesmo tamanho com os respectivos valores padronizados. Algumas das funções disponíveis são apresentadas seguir:","code":"library(enderecobr) enderecos <- data.frame( logradouro = \"r ns sra da piedade\", nroLogradouro = 20, complemento = \"qd 20\", cep = 25220020, bairro = \"jd botanico\", codmun_dom = 3304557, uf_dom = \"rj\" ) campos <- correspondencia_campos( logradouro = \"logradouro\", numero = \"nroLogradouro\", complemento = \"complemento\", cep = \"cep\", bairro = \"bairro\", municipio = \"codmun_dom\", estado = \"uf_dom\" ) padronizar_enderecos(enderecos, campos_do_endereco = campos) #> logradouro nroLogradouro complemento cep bairro #> #> 1: r ns sra da piedade 20 qd 20 25220020 jd botanico #> codmun_dom uf_dom logradouro_padr numero_padr complemento_padr #> #> 1: 3304557 rj RUA NOSSA SENHORA DA PIEDADE 20 QUADRA 20 #> cep_padr bairro_padr municipio_padr estado_padr #> #> 1: 25220-020 JARDIM BOTANICO RIO DE JANEIRO RIO DE JANEIRO estados <- c(\"21\", \" 21\", \"MA\", \" MA \", \"ma\", \"MARANHÃO\") padronizar_estados(estados) #> [1] \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" municipios <- c( \"3304557\", \"003304557\", \" 3304557 \", \"RIO DE JANEIRO\", \"rio de janeiro\", \"SÃO PAULO\" ) padronizar_municipios(municipios) #> [1] \"RIO DE JANEIRO\" \"RIO DE JANEIRO\" \"RIO DE JANEIRO\" \"RIO DE JANEIRO\" #> [5] \"RIO DE JANEIRO\" \"SAO PAULO\" bairros <- c( \"PRQ IND\", \"NSA SEN DE FATIMA\", \"ILHA DO GOV\", \"VL OLIMPICA\", \"NUC RES\" ) padronizar_bairros(bairros) #> [1] \"PARQUE INDUSTRIAL\" \"NOSSA SENHORA DE FATIMA\" #> [3] \"ILHA DO GOVERNADOR\" \"VILA OLIMPICA\" #> [5] \"NUCLEO RESIDENCIAL\" ceps <- c(\"22290-140\", \"22.290-140\", \"22290 140\", \"22290140\") padronizar_ceps(ceps) #> [1] \"22290-140\" \"22290-140\" \"22290-140\" \"22290-140\" logradouros <- c( \"r. gen.. glicério, 137\", \"cond pres j. k., qd 05 lt 02 1\", \"av d pedro I, 020\" ) padronizar_logradouros(logradouros) #> [1] \"RUA GENERAL GLICERIO, 137\" #> [2] \"CONDOMINIO PRESIDENTE JUSCELINO KUBITSCHEK, QUADRA 5 LOTE 2 1\" #> [3] \"AVENIDA DOM PEDRO I, 20\" numeros <- c(\"0210\", \"001\", \"1\", \"\", \"S N\", \"S/N\", \"SN\", \"0180 0181\") padronizar_numeros(numeros) #> [1] \"210\" \"1\" \"1\" \"S/N\" \"S/N\" \"S/N\" \"S/N\" #> [8] \"180 181\""},{"path":"https://ipeagit.github.io/enderecobr/dev/index.html","id":"controle-de-verbosidade","dir":"","previous_headings":"","what":"Controle de verbosidade","title":"Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer)","text":"O disparo de mensagens com informações sobre execução das funções pode ser controlado pela opção enderecobr.verbose, que recebe os valores \"quiet\" ou \"verbose\", como demonstrado seguir:","code":"campos <- correspondencia_logradouro( nome_do_logradouro = \"logradouro\", numero = \"nroLogradouro\" ) # quieto, por padrão res <- padronizar_logradouros_completos(enderecos, campos) # verboso, se desejado rlang::local_options(\"enderecobr.verbose\" = \"verbose\") res <- padronizar_logradouros_completos(enderecos, campos) #> ✔ Padronizando nomes dos logradouros... [130ms] #> ✔ Padronizando números... [111ms] #> ✔ Trazendo números para o logradouro completo... [107ms]"},{"path":"https://ipeagit.github.io/enderecobr/dev/index.html","id":"nota-","dir":"","previous_headings":"","what":"Nota","title":"Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer)","text":"enderecobr é desenvolvido por uma equipe de pesquisadores Instituto de Pesquisa Econômica Aplicada (Ipea).","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/codigos_estados.html","id":null,"dir":"Reference","previous_headings":"","what":"Códigos e nomes dos estados brasileiros (2022) — codigos_estados","title":"Códigos e nomes dos estados brasileiros (2022) — codigos_estados","text":"Tabela com relação entre os códigos e nomes dos estados brasileiros. Os códigos foram convertidos para caracteres; os nomes foram convertidos para caracteres ASCII em caixa alta.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/codigos_estados.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Códigos e nomes dos estados brasileiros (2022) — codigos_estados","text":"","code":"codigos_estados"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/codigos_estados.html","id":"format","dir":"Reference","previous_headings":"","what":"Format","title":"Códigos e nomes dos estados brasileiros (2022) — codigos_estados","text":"Um data frame com 27 linhas e 3 colunas: codigo_estado - código estado; nome_estado - nome estado; abrev_estado - abreviação nome estado.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/codigos_estados.html","id":"source","dir":"Reference","previous_headings":"","what":"Source","title":"Códigos e nomes dos estados brasileiros (2022) — codigos_estados","text":"https://www.ibge.gov.br/explica/codigos-dos-municipios.php","code":""},{"path":[]},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/codigos_municipios.html","id":null,"dir":"Reference","previous_headings":"","what":"Códigos e nomes dos municípios brasileiros (2022) — codigos_municipios","title":"Códigos e nomes dos municípios brasileiros (2022) — codigos_municipios","text":"Tabela com relação entre os códigos e nomes dos municípios brasileiros. Os códigos foram convertidos para caracteres; os nomes foram convertidos para caracteres ASCII em caixa alta.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/codigos_municipios.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Códigos e nomes dos municípios brasileiros (2022) — codigos_municipios","text":"","code":"codigos_municipios"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/codigos_municipios.html","id":"format","dir":"Reference","previous_headings":"","what":"Format","title":"Códigos e nomes dos municípios brasileiros (2022) — codigos_municipios","text":"Um data frame com 5570 linhas e 3 colunas: codigo_estado - código estado em que o município está localizado; codigo_muni - código município; nome_muni - nome município.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/codigos_municipios.html","id":"source","dir":"Reference","previous_headings":"","what":"Source","title":"Códigos e nomes dos municípios brasileiros (2022) — codigos_municipios","text":"https://www.ibge.gov.br/explica/codigos-dos-municipios.php","code":""},{"path":[]},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_campos.html","id":null,"dir":"Reference","previous_headings":"","what":"Correspondência entre os campos do endereço e as colunas que os descrevem — correspondencia_campos","title":"Correspondência entre os campos do endereço e as colunas que os descrevem — correspondencia_campos","text":"Cria um vetor de caracteres que especifica colunas que representam cada campo de endereço em um dataframe.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_campos.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Correspondência entre os campos do endereço e as colunas que os descrevem — correspondencia_campos","text":"","code":"correspondencia_campos( tipo_de_logradouro = NULL, logradouro = NULL, numero = NULL, complemento = NULL, cep = NULL, bairro = NULL, municipio = NULL, estado = NULL )"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_campos.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Correspondência entre os campos do endereço e as colunas que os descrevem — correspondencia_campos","text":"tipo_de_logradouro, logradouro, numero, complemento, cep, bairro, municipio, estado Uma string. O nome da coluna que representa o respectivo campo de endereço dataframe. Pode ser NULL, caso campo não estar listado. Ao menos um dos campos deve receber um valor não nulo.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_campos.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Correspondência entre os campos do endereço e as colunas que os descrevem — correspondencia_campos","text":"Um vetor nomeado de caracteres, em que os nomes representam os campos endereço e os valores colunas que os descrevem dataframe.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_campos.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Correspondência entre os campos do endereço e as colunas que os descrevem — correspondencia_campos","text":"","code":"enderecos <- data.frame( id = 1, tipo = \"r\", log = \"ns sra da piedade\", nroLogradouro = 20, compl = \"qd 20\", cep = 25220020, bairro = \"jd botanico\", codmun_dom = 3304557, uf_dom = \"rj\" ) # dado o dataframe acima, a seguinte chamada cria a correspondencia entre # suas colunas e os campos correspondencia_campos( tipo_de_logradouro = \"tipo\", logradouro = \"log\", numero = \"nroLogradouro\", complemento = \"compl\", cep = \"cep\", bairro = \"bairro\", municipio = \"codmun_dom\", estado = \"uf_dom\" ) #> tipo_de_logradouro logradouro numero complemento #> \"tipo\" \"log\" \"nroLogradouro\" \"compl\" #> cep bairro municipio estado #> \"cep\" \"bairro\" \"codmun_dom\" \"uf_dom\""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_logradouro.html","id":null,"dir":"Reference","previous_headings":"","what":"Correspondência entre os campos do logradouro completo e as colunas que os descrevem — correspondencia_logradouro","title":"Correspondência entre os campos do logradouro completo e as colunas que os descrevem — correspondencia_logradouro","text":"Cria um vetor de caracteres que especifica colunas que representam os campos de logradouro (tipo, nome e número) em um dataframe de endereços.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_logradouro.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Correspondência entre os campos do logradouro completo e as colunas que os descrevem — correspondencia_logradouro","text":"","code":"correspondencia_logradouro( tipo_de_logradouro = NULL, nome_do_logradouro = NULL, numero = NULL )"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_logradouro.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Correspondência entre os campos do logradouro completo e as colunas que os descrevem — correspondencia_logradouro","text":"tipo_de_logradouro, nome_do_logradouro, numero Uma string. O nome da coluna que representa o respectivo campo logradouro dataframe. Pode ser NULL, caso campo não estar listado. Ao menos um dos campos deve receber um valor não nulo.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_logradouro.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Correspondência entre os campos do logradouro completo e as colunas que os descrevem — correspondencia_logradouro","text":"Um vetor nomeado de caracteres, em que os nomes representam os campos logradouro e os valores colunas que os descrevem dataframe.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/correspondencia_logradouro.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Correspondência entre os campos do logradouro completo e as colunas que os descrevem — correspondencia_logradouro","text":"","code":"enderecos <- data.frame( tipo = \"r\", log = \"ns sra da piedade\", nroLogradouro = 20 ) # dado o dataframe acima, a seguinte chamada cria a correspondencia entre # suas colunas e os campos correspondencia_logradouro( tipo_de_logradouro = \"tipo\", nome_do_logradouro = \"log\", numero = \"nroLogradouro\" ) #> tipo_de_logradouro nome_do_logradouro numero #> \"tipo\" \"log\" \"nroLogradouro\""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/enderecobr.html","id":null,"dir":"Reference","previous_headings":"","what":"enderecobr: Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer) — enderecobr","title":"enderecobr: Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer) — enderecobr","text":"Padroniza endereços brasileiros partir de diferentes critérios. Os métodos de padronização incluem apenas manipulações básicas de strings, não oferecendo suporte correspondências probabilísticas entre strings. (Standardizes brazilian addresses using different criteria. Standardization methods include basic string manipulation, supporting probabilistic matches strings.)","code":""},{"path":[]},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/enderecobr.html","id":"author","dir":"Reference","previous_headings":"","what":"Author","title":"enderecobr: Padronizador de Endereços Brasileiros (Brazilian Addresses Standardizer) — enderecobr","text":"Maintainer: Daniel Herszenhut dhersz@gmail.com (ORCID) Authors: Rafael H. M. Pereira (ORCID) Lucas Mation (ORCID)","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_bairros.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar bairros — padronizar_bairros","title":"Padronizar bairros — padronizar_bairros","text":"Padroniza um vetor de caracteres representando bairros de municípios brasileiros. Veja seção Detalhes para mais informações sobre padronização.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_bairros.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar bairros — padronizar_bairros","text":"","code":"padronizar_bairros(bairros)"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_bairros.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar bairros — padronizar_bairros","text":"bairros Um vetor de caracteres. Os bairros serem padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_bairros.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar bairros — padronizar_bairros","text":"Um vetor de caracteres com os bairros padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_bairros.html","id":"detalhes","dir":"Reference","previous_headings":"","what":"Detalhes","title":"Padronizar bairros — padronizar_bairros","text":"Operações realizadas durante padronização: remoção de espaços em branco antes e depois das strings e remoção de espaços em excesso entre palavras; conversão de caracteres para caixa alta; remoção de acentos e caracteres não ASCII; adição de espaços após abreviações sinalizadas por pontos; expansão de abreviações frequentemente utilizadas através de diversas expressões regulares (regexes); correção de alguns pequenos erros ortográficos.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_bairros.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar bairros — padronizar_bairros","text":"","code":"bairros <- c(\"PRQ IND\", \"NSA SEN DE FATIMA\", \"ILHA DO GOV\") padronizar_bairros(bairros) #> [1] \"PARQUE INDUSTRIAL\" \"NOSSA SENHORA DE FATIMA\" #> [3] \"ILHA DO GOVERNADOR\""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_ceps.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar CEPs — padronizar_ceps","title":"Padronizar CEPs — padronizar_ceps","text":"Padroniza um vetor de caracteres ou números representando CEPs. Veja seção Detalhes para mais informações sobre padronização.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_ceps.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar CEPs — padronizar_ceps","text":"","code":"padronizar_ceps(ceps)"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_ceps.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar CEPs — padronizar_ceps","text":"ceps Um vetor de caracteres ou números. Os CEPs serem padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_ceps.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar CEPs — padronizar_ceps","text":"Um vetor de caracteres com os CEPs padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_ceps.html","id":"detalhes","dir":"Reference","previous_headings":"","what":"Detalhes","title":"Padronizar CEPs — padronizar_ceps","text":"Operações realizadas durante padronização: conversão para caracter, se o input numérico; adição de zeros à esquerda, se o input contiver menos de 8 dígitos; remoção de espaços em branco, pontos e vírgulas; adição de traço separando o radical (5 primeiros dígitos) sufixo (3 últimos digitos).","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_ceps.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar CEPs — padronizar_ceps","text":"","code":"ceps <- c(\"22290-140\", \"22.290-140\", \"22290 140\", \"22290140\") padronizar_ceps(ceps) #> [1] \"22290-140\" \"22290-140\" \"22290-140\" \"22290-140\" ceps <- c(22290140, 1000000, NA) padronizar_ceps(ceps) #> [1] \"22290-140\" \"01000-000\" NA"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_complementos.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar complementos — padronizar_complementos","title":"Padronizar complementos — padronizar_complementos","text":"Padroniza um vetor de caracteres representando complementos de logradouros. Veja seção Detalhes para mais informações sobre padronização.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_complementos.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar complementos — padronizar_complementos","text":"","code":"padronizar_complementos(complementos)"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_complementos.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar complementos — padronizar_complementos","text":"complementos Um vetor de caracteres. Os complementos serem padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_complementos.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar complementos — padronizar_complementos","text":"Um vetor de caracteres com os complementos padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_complementos.html","id":"detalhes","dir":"Reference","previous_headings":"","what":"Detalhes","title":"Padronizar complementos — padronizar_complementos","text":"Operações realizadas durante padronização: remoção de espaços em branco antes e depois das strings e remoção de espaços em excesso entre palavras; conversão de caracteres para caixa alta; remoção de acentos e caracteres não ASCII; adição de espaços após abreviações sinalizadas por pontos; expansão de abreviações frequentemente utilizadas através de diversas expressões regulares (regexes); correção de alguns pequenos erros ortográficos.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_complementos.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar complementos — padronizar_complementos","text":"","code":"complementos <- c(\"\", \"QD1 LT2 CS3\", \"APTO. 405\") padronizar_complementos(complementos) #> [1] NA \"QUADRA 1 LOTE 2 CASA 3\" \"APARTAMENTO 405\""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_enderecos.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar endereços — padronizar_enderecos","title":"Padronizar endereços — padronizar_enderecos","text":"Padroniza simultaneamente os diversos campos de um endereço listados em um dataframe.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_enderecos.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar endereços — padronizar_enderecos","text":"","code":"padronizar_enderecos( enderecos, campos_do_endereco = correspondencia_campos(), formato_estados = \"por_extenso\", formato_numeros = \"character\", manter_cols_extras = TRUE, combinar_logradouro = FALSE, checar_tipos = FALSE )"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_enderecos.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar endereços — padronizar_enderecos","text":"enderecos Um dataframe. Os endereços serem padronizados. Cada uma de suas colunas deve corresponder um campo endereço (e.g. logradouro, cidade, bairro, etc). campos_do_endereco Um vetor nomeado de caracteres. correspondência entre os campos serem padronizados (nomes vetor) e colunas que os representam dataframe (valores em si). função correspondencia_campos() facilita criação deste vetor, fazendo também algumas verificações conteúdo imputado. Argumentos dessa função com valor NULL são ignorados, e ao menos um valor diferente de nulo deve ser fornecido. Caso deseje criar o vetor manualmente, note que seus nomes devem ser os mesmos nomes dos parâmetros da função correspondencia_campos(). formato_estados Uma string. Como o estado padronizado deve ser formatado. Por padrão, \"por_extenso\", fazendo com que função retorne o nome dos estados por extenso. Se \"sigla\", função retorna sigla dos estados. formato_numeros Uma string. Como o número padronizado deve ser formatado. Por padrão, \"character\", fazendo com que função retorne o número como caractere. Se \"integer\", função retorna o número como inteiro. manter_cols_extras Um logical. Se colunas não especificadas em campos_do_endereco devem ser mantidas ou não (por exemplo, uma coluna de id conjunto de dados sendo padronizado). Por padrão, TRUE. combinar_logradouro Um logical. Se os campos que descrevem o logradouro (tipo, nome e número, por exemplo) devem ser combinados em um único campo de logradouro completo. Nesse caso, o parâmetro logradouro da correspondencia_campos() deve ser interpretado como o nome logradouro. Por padrão, FALSE. checar_tipos Um logical. Apenas tem efeito quando combinar_logradouro é TRUE. Se ocorrência de duplicatas entre os tipos e nomes dos logradouros deve ser verificada ao combiná-los (por exemplo, quando o tipo é descrito como \"RUA\" e o nome é descrito como \"RUA BOTAFOGO\"). Por padrão, FALSE.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_enderecos.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar endereços — padronizar_enderecos","text":"Um dataframe com colunas adicionais, representando os campos de endereço padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_enderecos.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar endereços — padronizar_enderecos","text":"","code":"enderecos <- data.frame( id = 1, logradouro = \"r ns sra da piedade\", nroLogradouro = 20, complemento = \"qd 20\", cep = 25220020, bairro = \"jd botanico\", codmun_dom = 3304557, uf_dom = \"rj\" ) campos <- correspondencia_campos( logradouro = \"logradouro\", numero = \"nroLogradouro\", complemento = \"complemento\", cep = \"cep\", bairro = \"bairro\", municipio = \"codmun_dom\", estado = \"uf_dom\" ) padronizar_enderecos(enderecos, campos) #> id logradouro nroLogradouro complemento cep bairro #> #> 1: 1 r ns sra da piedade 20 qd 20 25220020 jd botanico #> codmun_dom uf_dom logradouro_padr numero_padr complemento_padr #> #> 1: 3304557 rj RUA NOSSA SENHORA DA PIEDADE 20 QUADRA 20 #> cep_padr bairro_padr municipio_padr estado_padr #> #> 1: 25220-020 JARDIM BOTANICO RIO DE JANEIRO RIO DE JANEIRO padronizar_enderecos(enderecos, campos, manter_cols_extras = FALSE) #> logradouro nroLogradouro complemento cep bairro #> #> 1: r ns sra da piedade 20 qd 20 25220020 jd botanico #> codmun_dom uf_dom logradouro_padr numero_padr complemento_padr #> #> 1: 3304557 rj RUA NOSSA SENHORA DA PIEDADE 20 QUADRA 20 #> cep_padr bairro_padr municipio_padr estado_padr #> #> 1: 25220-020 JARDIM BOTANICO RIO DE JANEIRO RIO DE JANEIRO padronizar_enderecos(enderecos, campos, combinar_logradouro = TRUE) #> id logradouro nroLogradouro complemento cep bairro #> #> 1: 1 r ns sra da piedade 20 qd 20 25220020 jd botanico #> codmun_dom uf_dom logradouro_completo_padr complemento_padr cep_padr #> #> 1: 3304557 rj RUA NOSSA SENHORA DA PIEDADE 20 QUADRA 20 25220-020 #> bairro_padr municipio_padr estado_padr #> #> 1: JARDIM BOTANICO RIO DE JANEIRO RIO DE JANEIRO ends_tipo_duplicado <- data.frame(tipo = \"r\", nome = \"r ns sra da piedade\") padronizar_enderecos( ends_tipo_duplicado, campos_do_endereco = correspondencia_campos( tipo_de_logradouro = \"tipo\", logradouro = \"nome\" ), combinar_logradouro = TRUE, checar_tipos = TRUE ) #> tipo nome logradouro_completo_padr #> #> 1: r r ns sra da piedade RUA NOSSA SENHORA DA PIEDADE"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_estados.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar estados — padronizar_estados","title":"Padronizar estados — padronizar_estados","text":"Padroniza um vetor de caracteres ou números representando estados brasileiros. Veja seção Detalhes para mais informações sobre padronização.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_estados.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar estados — padronizar_estados","text":"","code":"padronizar_estados(estados, formato = \"por_extenso\")"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_estados.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar estados — padronizar_estados","text":"estados Um vetor de caracteres ou números. Os estados serem padronizados. formato Uma string. Como o resultado padronizado deve ser formatado. Por padrão, \"por_extenso\", fazendo com que função retorne o nome dos estados por extenso. Se \"sigla\", função retorna sigla dos estados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_estados.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar estados — padronizar_estados","text":"Um vetor de caracteres com os estados padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_estados.html","id":"detalhes","dir":"Reference","previous_headings":"","what":"Detalhes","title":"Padronizar estados — padronizar_estados","text":"Operações realizadas durante padronização: conversão para caracter, se o input numérico; remoção de espaços em branco antes e depois dos valores e remoção de espaços em excesso entre palavras; conversão de caracteres para caixa alta; remoção de zeros à esquerda; busca, partir código numérico ou da abreviação da UF, nome completo de cada estado; caso busca não tenha encontrado determinado valor, remoção de acentos e caracteres não ASCII.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_estados.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar estados — padronizar_estados","text":"","code":"estados <- c(\"21\", \"021\", \"MA\", \" 21\", \" MA \", \"ma\", \"\", NA) padronizar_estados(estados) #> [1] \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" \"MARANHAO\" NA #> [8] NA estados <- c(21, NA) padronizar_estados(estados) #> [1] \"MARANHAO\" NA padronizar_estados(estados, formato = \"sigla\") #> [1] \"MA\" NA"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar logradouros — padronizar_logradouros","title":"Padronizar logradouros — padronizar_logradouros","text":"Padroniza um vetor de caracteres representando logradouros de municípios brasileiros. Veja seção Detalhes para mais informações sobre padronização.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar logradouros — padronizar_logradouros","text":"","code":"padronizar_logradouros(logradouros)"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar logradouros — padronizar_logradouros","text":"logradouros Um vetor de caracteres. Os logradouros serem padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar logradouros — padronizar_logradouros","text":"Um vetor de caracteres com os logradouros padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros.html","id":"detalhes","dir":"Reference","previous_headings":"","what":"Detalhes","title":"Padronizar logradouros — padronizar_logradouros","text":"Operações realizadas durante padronização: remoção de espaços em branco antes e depois das strings e remoção de espaços em excesso entre palavras; conversão de caracteres para caixa alta; remoção de acentos e caracteres não ASCII; adição de espaços após abreviações sinalizadas por pontos; expansão de abreviações frequentemente utilizadas através de diversas expressões regulares (regexes); correção de alguns pequenos erros ortográficos.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar logradouros — padronizar_logradouros","text":"","code":"logradouros <- c(\"r. gen.. glicério\") padronizar_logradouros(logradouros) #> [1] \"RUA GENERAL GLICERIO\""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros_completos.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar logradouros completos — padronizar_logradouros_completos","title":"Padronizar logradouros completos — padronizar_logradouros_completos","text":"Padroniza o logradouro completo partir de diversos campos (tipo de logradouro, nome logradouro e número), garantindo consistência da informação.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros_completos.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar logradouros completos — padronizar_logradouros_completos","text":"","code":"padronizar_logradouros_completos( enderecos, campos_do_logradouro = correspondencia_logradouro(), manter_cols_extras = TRUE, checar_tipos = FALSE )"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros_completos.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar logradouros completos — padronizar_logradouros_completos","text":"enderecos Um dataframe. Os endereços serem padronizados. Ao menos uma de suas colunas deve corresponder um campo logradouro. campos_do_logradouro Um vetor nomeado de caracteres. correspondência entre os campos serem padronizados (nomes vetor) e colunas que os representam dataframe (valores vetor). função correspondencia_logradouro() facilita criação deste vetor, fazendo também algumas verificações conteúdo imputado. Caso deseje criar o vetor manualmente, note que seus nomes devem ser os mesmos nomes dos parâmetros da função correspondencia_logradouro(). manter_cols_extras Um logical. Se colunas não especificadas em campos_do_logradouro devem ser mantidas output ou não (por exemplo, uma coluna com informação de bairro ou com o id conjunto de dados sendo padronizado). Por padrão, TRUE. checar_tipos Um logical. Se ocorrência de duplicatas entre os tipos e nomes dos logradouros deve ser verificada ao combiná-los (por exemplo, quando o tipo é descrito como \"RUA\" e o nome é descrito como \"RUA BOTAFOGO\"). Por padrão, FALSE.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros_completos.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar logradouros completos — padronizar_logradouros_completos","text":"Caso manter_cols_extras seja TRUE, o mesmo dataframe de input, mas sem colunas descrevendo o logradouro e com uma coluna padronizada adicional logradouro_completo. Caso manter_cols_extras seja FALSE, um dataframe de apenas uma coluna, logradouro_completo.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_logradouros_completos.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar logradouros completos — padronizar_logradouros_completos","text":"","code":"enderecos <- data.frame( id = 1, tipoLogradouro = \"r\", logradouro = \"ns sra da piedade\", nroLogradouro = 20, complemento = \"qd 20\", cep = 25220020, bairro = \"jd botanico\", codmun_dom = 3304557, uf_dom = \"rj\" ) campos <- correspondencia_logradouro( tipo_de_logradouro = \"tipoLogradouro\", nome_do_logradouro = \"logradouro\", numero = \"nroLogradouro\" ) padronizar_logradouros_completos(enderecos, campos) #> id tipoLogradouro logradouro nroLogradouro complemento cep #> #> 1: 1 r ns sra da piedade 20 qd 20 25220020 #> bairro codmun_dom uf_dom logradouro_completo_padr #> #> 1: jd botanico 3304557 rj RUA NOSSA SENHORA DA PIEDADE 20 padronizar_logradouros_completos( enderecos, campos, manter_cols_extras = FALSE ) #> tipoLogradouro logradouro nroLogradouro #> #> 1: r ns sra da piedade 20 #> logradouro_completo_padr #> #> 1: RUA NOSSA SENHORA DA PIEDADE 20 enderecos <- data.frame( tipoLogradouro = \"r\", logradouro = \"r ns sra da piedade\", nroLogradouro = 20 ) padronizar_logradouros_completos(enderecos, campos, checar_tipos = TRUE) #> tipoLogradouro logradouro nroLogradouro #> #> 1: r r ns sra da piedade 20 #> logradouro_completo_padr #> #> 1: RUA NOSSA SENHORA DA PIEDADE 20"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_municipios.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar municípios — padronizar_municipios","title":"Padronizar municípios — padronizar_municipios","text":"Padroniza um vetor de caracteres ou números representando municípios brasileiros. Veja seção Detalhes para mais informações sobre padronização.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_municipios.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar municípios — padronizar_municipios","text":"","code":"padronizar_municipios(municipios)"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_municipios.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar municípios — padronizar_municipios","text":"municipios Um vetor de caracteres ou números. Os municípios serem padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_municipios.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar municípios — padronizar_municipios","text":"Um vetor de caracteres com os municípios padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_municipios.html","id":"detalhes","dir":"Reference","previous_headings":"","what":"Detalhes","title":"Padronizar municípios — padronizar_municipios","text":"Operações realizadas durante padronização: conversão para caracter, se o input numérico; remoção de espaços em branco antes e depois dos valores e remoção de espaços em excesso entre palavras; conversão de caracteres para caixa alta; remoção de zeros à esquerda; busca, partir código numérico, nome completo de cada município; caso busca não tenha encontrado determinado valor, remoção de acentos e caracteres não ASCII, correção de erros ortográficos frequentes e atualização de nomes conforme listagem de municípios IBGE de 2022.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_municipios.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar municípios — padronizar_municipios","text":"","code":"municipios <- c( \"3304557\", \"003304557\", \" 3304557 \", \"RIO DE JANEIRO\", \"rio de janeiro\", \"SÃO PAULO\", \"\", NA ) padronizar_municipios(municipios) #> [1] \"RIO DE JANEIRO\" \"RIO DE JANEIRO\" \"RIO DE JANEIRO\" \"RIO DE JANEIRO\" #> [5] \"RIO DE JANEIRO\" \"SAO PAULO\" NA NA municipios <- c(3304557, NA) padronizar_municipios(municipios) #> [1] \"RIO DE JANEIRO\" NA municipios <- c(\"PARATI\", \"AUGUSTO SEVERO\", \"SAO VALERIO DA NATIVIDADE\") padronizar_municipios(municipios) #> [1] \"PARATY\" \"CAMPO GRANDE\" \"SAO VALERIO\""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_numeros.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar números de logradouros — padronizar_numeros","title":"Padronizar números de logradouros — padronizar_numeros","text":"Padroniza um vetor de caracteres ou números representando números de logradouros. Veja seção Detalhes para mais informações sobre padronização.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_numeros.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar números de logradouros — padronizar_numeros","text":"","code":"padronizar_numeros(numeros, formato = \"character\")"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_numeros.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar números de logradouros — padronizar_numeros","text":"numeros Um vetor de caracteres ou números. Os números de logradouro serem padronizados. formato Uma string. Como o resultado padronizado deve ser formatado. Por padrão, \"character\", fazendo com que função retorne um vetor de caracteres. Se \"integer\", função retorna um vetor de números inteiros.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_numeros.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar números de logradouros — padronizar_numeros","text":"Um vetor de caracteres com os números de logradouros padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_numeros.html","id":"detalhes","dir":"Reference","previous_headings":"","what":"Detalhes","title":"Padronizar números de logradouros — padronizar_numeros","text":"Operações realizadas durante padronização: conversão para caracter, se o input numérico; remoção de espaços em branco antes e depois dos números e de espaços em branco em excesso entre números; remoção de zeros à esquerda; substituição de números vazios e de variações de SN (SN, S N, S.N., S./N., etc) por S/N.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_numeros.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar números de logradouros — padronizar_numeros","text":"","code":"numeros <- c(\"0210\", \"001\", \"1\", \"\", \"S N\", \"S/N\", \"SN\", \"0180 0181\") padronizar_numeros(numeros) #> [1] \"210\" \"1\" \"1\" \"S/N\" \"S/N\" \"S/N\" \"S/N\" #> [8] \"180 181\" numeros <- c(210, 1, 10000, NA) padronizar_numeros(numeros) #> [1] \"210\" \"1\" \"10000\" \"S/N\""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_tipos_de_logradouro.html","id":null,"dir":"Reference","previous_headings":"","what":"Padronizar tipos de logradouro — padronizar_tipos_de_logradouro","title":"Padronizar tipos de logradouro — padronizar_tipos_de_logradouro","text":"Padroniza um vetor de caracteres representando tipos de logradouro. Veja seção Detalhes para mais informações sobre padronização.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_tipos_de_logradouro.html","id":"ref-usage","dir":"Reference","previous_headings":"","what":"Usage","title":"Padronizar tipos de logradouro — padronizar_tipos_de_logradouro","text":"","code":"padronizar_tipos_de_logradouro(tipos)"},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_tipos_de_logradouro.html","id":"arguments","dir":"Reference","previous_headings":"","what":"Arguments","title":"Padronizar tipos de logradouro — padronizar_tipos_de_logradouro","text":"tipos Um vetor de caracteres. Os tipos de logradouro serem padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_tipos_de_logradouro.html","id":"value","dir":"Reference","previous_headings":"","what":"Value","title":"Padronizar tipos de logradouro — padronizar_tipos_de_logradouro","text":"Um vetor de caracteres com os tipos de logradouro padronizados.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_tipos_de_logradouro.html","id":"detalhes","dir":"Reference","previous_headings":"","what":"Detalhes","title":"Padronizar tipos de logradouro — padronizar_tipos_de_logradouro","text":"Operações realizadas durante padronização: remoção de espaços em branco antes e depois das strings e remoção de espaços em excesso entre palavras; conversão de caracteres para caixa alta; remoção de acentos e caracteres não ASCII; adição de espaços após abreviações sinalizadas por pontos; expansão de abreviações frequentemente utilizadas através de diversas expressões regulares (regexes); correção de alguns pequenos erros ortográficos.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/reference/padronizar_tipos_de_logradouro.html","id":"ref-examples","dir":"Reference","previous_headings":"","what":"Examples","title":"Padronizar tipos de logradouro — padronizar_tipos_de_logradouro","text":"","code":"tipos <- c(\"R\", \"AVE\", \"QDRA\") padronizar_tipos_de_logradouro(tipos) #> [1] \"RUA\" \"AVENIDA\" \"QUADRA\""},{"path":"https://ipeagit.github.io/enderecobr/dev/news/index.html","id":"enderecobr-030","dir":"Changelog","previous_headings":"","what":"enderecobr 0.3.0","title":"enderecobr 0.3.0","text":"CRAN release: 2024-12-12","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/news/index.html","id":"novas-funcionalidades-0-3-0","dir":"Changelog","previous_headings":"","what":"Novas funcionalidades","title":"enderecobr 0.3.0","text":"Novo argumento na padronizar_estados(), formato, responsável por controlar como o resultado deve ser padronizado: se usando o nome por extenso de cada estado ou sua sigla. Novo argumento na padronizar_enderecos(), formato_estados, que controla como deve ser feita padronização de estados dentro dessa função.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/news/index.html","id":"enderecobr-021","dir":"Changelog","previous_headings":"","what":"enderecobr 0.2.1","title":"enderecobr 0.2.1","text":"CRAN release: 2024-11-18","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/news/index.html","id":"notas-0-2-1","dir":"Changelog","previous_headings":"","what":"Notas","title":"enderecobr 0.2.1","text":"Lucas Mation adicionado como autor pacote.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/news/index.html","id":"enderecobr-020","dir":"Changelog","previous_headings":"","what":"enderecobr 0.2.0","title":"enderecobr 0.2.0","text":"CRAN release: 2024-10-28","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/news/index.html","id":"correção-de-bugs-0-2-0","dir":"Changelog","previous_headings":"","what":"Correção de bugs","title":"enderecobr 0.2.0","text":"Ajuste na exportação dos dados dos códigos de estados e municípios, que impedia que o pacote fosse usado sem ser explicitamente carregado com library(enderecopadrao). Ajuste na padronizar_estados(), evitando casos em que um valor padronizado poderia acabar sendo erroneamente atribuído um estado de input (relacionado ao issue #26).","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/news/index.html","id":"novas-funcionalidades-0-2-0","dir":"Changelog","previous_headings":"","what":"Novas funcionalidades","title":"enderecobr 0.2.0","text":"Diversos ajustes nas padronizações. Novas funções: padronizar_tipos_de_logradouro() e padronizar_logradouros_completos(). Novos argumentos na padronizar_enderecos(): manter_cols_extras, combinar_logradouro e checar_tipos. função agora mantém colunas de input resultado e retorna o output em colunas nomeadas padrão _padr. verbosidade das funções agora pode ser controlada pela opção enderecobr.verbose, que recebe os valores \"quiet\" ou \"verbose\".","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/news/index.html","id":"notas-0-2-0","dir":"Changelog","previous_headings":"","what":"Notas","title":"enderecobr 0.2.0","text":"Primeira versão CRAN. Mudança nome pacote, de {enderecopadrao} para enderecobr. Diversos ajustes na documentação.","code":""}]
+[{"path":"https://ipeagit.github.io/enderecobr/dev/LICENSE.html","id":null,"dir":"","previous_headings":"","what":"MIT License","title":"MIT License","text":"Copyright (c) 2024 Ipea Permission hereby granted, free charge, person obtaining copy software associated documentation files (“Software”), deal Software without restriction, including without limitation rights use, copy, modify, merge, publish, distribute, sublicense, /sell copies Software, permit persons Software furnished , subject following conditions: copyright notice permission notice shall included copies substantial portions Software. SOFTWARE PROVIDED “”, WITHOUT WARRANTY KIND, EXPRESS IMPLIED, INCLUDING LIMITED WARRANTIES MERCHANTABILITY, FITNESS PARTICULAR PURPOSE NONINFRINGEMENT. EVENT SHALL AUTHORS COPYRIGHT HOLDERS LIABLE CLAIM, DAMAGES LIABILITY, WHETHER ACTION CONTRACT, TORT OTHERWISE, ARISING , CONNECTION SOFTWARE USE DEALINGS SOFTWARE.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/articles/enderecobr.html","id":"instalação","dir":"Articles","previous_headings":"","what":"Instalação","title":"enderecobr: padronizador de endereços brasileiros","text":"última versão estável pode ser baixada CRAN com o comando seguir: Caso prefira, versão em desenvolvimento também pode ser usada. Para isso, use o seguinte comando:","code":"install.packages(\"enderecobr\") # install.packages(\"remotes\") remotes::install_github(\"ipeaGIT/enderecobr\")"},{"path":"https://ipeagit.github.io/enderecobr/dev/articles/enderecobr.html","id":"utilização","dir":"Articles","previous_headings":"","what":"Utilização","title":"enderecobr: padronizador de endereços brasileiros","text":"O enderecobr disponibiliza funções para padronizar os diversos campos de um endereço. Essas funções agem tanto sobre campos individuais quanto sobre um conjunto de campos. Vamos ver, primeiro, como funcionam funções que agem sobre múltiplos campos simultaneamente.","code":""},{"path":"https://ipeagit.github.io/enderecobr/dev/articles/enderecobr.html","id":"padronização-de-múltiplos-campos-simultaneamente","dir":"Articles","previous_headings":"Utilização","what":"Padronização de múltiplos campos simultaneamente","title":"enderecobr: padronizador de endereços brasileiros","text":"padronizar_enderecos(), carro-chefe pacote, atua de forma simultânea sobre os vários campos que podem compor um endereço. Para isso, ela recebe um dataframe e correspondência entre suas colunas e os campos serem padronizados: Note que exemplo acima nós também utiliza função correspondencia_campos(), que facilita o processo de especificação de correspondência entre colunas dataframe e os campos endereço serem padronizados. Com ela, nós especificamos que coluna que contém informação de tipo de logradouro se chama \"tipo\", que coluna de número logradouro se chama \"nroLogradouro\", etc. Na prática, entanto, essa função é opcional, e poderíamos simplesmente passar um vetor de caracteres formato c(tipo_de_logradouro = \"tipo\", logradouro = \"logradouro\", ...). correspondencia_campos(), entanto, realiza alguns testes input, garantindo que o vetor ser passado pra padronizar_enderecos() esteja corretamente formatado. padronizar_enderecos() contém, ainda, cinco parâmetros adicionais. O formato_estados e o formato_numeros controlam como os estados e números padronizados, respectivamente, devem ser formatados. Caso formato_estados seja \"por_extenso\" (valor padrão), função retorna o nome dos estados por extenso; caso seja \"sigla\", os estados são padronizados conforme suas respectivas siglas. Por sua vez, caso formato_numeros seja \"character\", função retorna os números padronizados como caracteres, preservando valores como \"S/N\", que possuem letras e outros dígitos que não podem ser convertidos para valores numéricos; caso seja \"integer\", entanto, os números são retornados como valores inteiros. Caso algum valor não possa ser convertido para inteiro, função o substitui por NA e lança um warning alertando sobre situação. Os exemplos seguir demonstram esses parâmetros detalhadamente: O manter_cols_extras determina colunas incluídas output da função. Caso seja TRUE (valor padrão), todas colunas dataframe original são mantidas; caso seja FALSE, apenas colunas usadas na padronização e seus respectivos resultados são preservados. O bloco abaixo demonstra essa funcionalidade: O combinar_logradouro, por sua vez, determina se os campos que compõem o logradouro (tipo, nome e número) devem ser combinados em um único campo padronizado de logradouro completo. Caso seja FALSE(valor padrão), os campos permanecem separados; se TRUE, são combinados. Nesse caso, o parâmetro logradouro da correspondencia_campos() deve ser interpretado como o nome logradouro. seguir, demonstramos essa funcionalidade: O quinto parâmetro, checar_tipos, tem efeito apenas quando combinar_logradouro é TRUE, e deve ser usado para sinalizar se ocorrência de duplicatas entre os tipos e nomes de logradouros deve ser verificada ao combiná-los (por exemplo, quando o tipo é descrito como “RUA” e o nome como “RUA BOTAFOGO”). Caso seja FALSE (valor padrão), verificação não é feita; se TRUE, verificação é realizada e valores duplicados são removidos, como apresentado seguir: Os parâmetros combinar_logradouro e checar_tipos acionam, de forma oculta, outra função que lida com múltiplos campos simultaneamente: padronizar_logradouros_completos(). Essa função também pode ser usada de forma separada e, de forma similiar à padronizar_enderecos(), recebe um dataframe com informações logradouro (tipo, nome e número) e correspondência entre suas colunas e os campos serem padronizados: Note que, nesse caso, usamos função campos_do_logradouro() para estabelecer correspondência entre colunas e campos endereço, mas também poderíamos passar um vetor de caracteres argumento campos_do_logradouro. padronizar_logradouros_completos() também inclui os parâmetros manter_cols_extras e checar_tipos, que funcionam de forma idêntica aos parâmetros de mesmo nome da padronizar_enderecos().","code":"library(enderecobr) enderecos <- data.frame( id = 1, tipo = \"r\", logradouro = \"ns sra da piedade\", nroLogradouro = 20, complemento = \"qd 20\", cep = 25220020, bairro = \"jd botanico\", codmun_dom = 3304557, uf_dom = \"rj\" ) campos <- correspondencia_campos( tipo_de_logradouro = \"tipo\", logradouro = \"logradouro\", numero = \"nroLogradouro\", complemento = \"complemento\", cep = \"cep\", bairro = \"bairro\", municipio = \"codmun_dom\", estado = \"uf_dom\" ) padronizar_enderecos(enderecos, campos_do_endereco = campos) #> id tipo logradouro nroLogradouro complemento cep #> #> 1: 1 r ns sra da piedade 20 qd 20 25220020 #> bairro codmun_dom uf_dom tipo_de_logradouro_padr #> #> 1: jd botanico 3304557 rj RUA #> logradouro_padr numero_padr complemento_padr cep_padr #> #> 1: NOSSA SENHORA DA PIEDADE 20 QUADRA 20 25220-020 #> bairro_padr municipio_padr estado_padr #> #> 1: JARDIM BOTANICO RIO DE JANEIRO RIO DE JANEIRO campos <- correspondencia_campos( numero = \"nroLogradouro\", estado = \"uf_dom\" ) padronizar_enderecos( enderecos[, c(\"nroLogradouro\", \"uf_dom\")], campos, formato_estados = \"por_extenso\", formato_numeros = \"character\" ) #> nroLogradouro uf_dom numero_padr estado_padr #> #> 1: 20 rj 20 RIO DE JANEIRO padronizar_enderecos( enderecos[, c(\"nroLogradouro\", \"uf_dom\")], campos, formato_estados = \"sigla\", formato_numeros = \"integer\" ) #> nroLogradouro uf_dom numero_padr estado_padr #> #> 1: 20 rj 20 RJ # o exemplo abaixo gera um warning, pois o número não pode ser convertido para # inteiro de forma adequada padronizar_enderecos( data.table::data.table(numero = \"12A 13B\"), correspondencia_campos(numero = \"numero\"), formato_numeros = \"integer\" ) #> Warning in padronizar_enderecos(data.table::data.table(numero = \"12A 13B\"), : Alguns números não puderam ser convertidos para integer, introduzindo NAs no #> resultado. #> numero numero_padr #> #> 1: 12A 13B NA campos <- correspondencia_campos( tipo_de_logradouro = \"tipo\", logradouro = \"logradouro\" ) padronizar_enderecos(enderecos, campos, manter_cols_extras = TRUE) #> id nroLogradouro complemento cep bairro codmun_dom uf_dom #> #> 1: 1 20 qd 20 25220020 jd botanico 3304557 rj #> tipo logradouro tipo_de_logradouro_padr logradouro_padr #> #> 1: r ns sra da piedade RUA NOSSA SENHORA DA PIEDADE padronizar_enderecos(enderecos, campos, manter_cols_extras = FALSE) #> tipo logradouro tipo_de_logradouro_padr logradouro_padr #> #> 1: r ns sra da piedade RUA NOSSA SENHORA DA PIEDADE enderecos <- data.frame( tipo = \"r\", logradouro = \"ns sra da piedade\", nroLogradouro = 20 ) campos <- correspondencia_campos( tipo_de_logradouro = \"tipo\", logradouro = \"logradouro\", numero = \"nroLogradouro\" ) padronizar_enderecos(enderecos, campos, combinar_logradouro = FALSE) #> tipo logradouro nroLogradouro tipo_de_logradouro_padr #> #> 1: r ns sra da piedade 20 RUA #> logradouro_padr numero_padr #>