Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Layout completamente novo #53

Open
buzios opened this issue Mar 20, 2021 · 23 comments
Open

Layout completamente novo #53

buzios opened this issue Mar 20, 2021 · 23 comments

Comments

@buzios
Copy link

buzios commented Mar 20, 2021

A receita federal mudou completamente o layout dos arquivos e tambem a pagina de download.
O novo link: https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj
Embora o novo layout indique que existe informacao de simples/mei, os arquivos disponibilizados nao tem simples/mei.
Um dos arquivos ( DADOS_CNPJ_EMPRESAS_1.zip ) esta incompleto.
O good news é que os arquivos agora estao em formato csv.

@k0al4
Copy link

k0al4 commented Mar 20, 2021 via email

@fabioserpa
Copy link
Owner

Pois é, fomos surpreendidos com essa mudança radical na forma de disponibilizar os dados. Ainda não atualizei os scripts do repositório. A questão é que agora, supostamente, o script não seria mais necessário para quem o utiliza apenas para gerar arquivos CSV. Pretendo de qualquer forma atualizá-los, principalmente para quem o utiliza para geração da base SQLite e uso dos recursos de consulta.

@buzios
Copy link
Author

buzios commented Mar 21, 2021

Pois é, em teoria o script não seria mais necessario mesmo para carregar um DB porque os csvs ja estao separados em 3 tabelas (empresas, estabelecimentos e socios). Me parece que deveria existir uma quarta tabela para simples/mei.
Notei porem os seguintes problemas com os csvs:

  • Nao estao em UTF8
  • Varias casos contem brancos no inicio/fim (merecem trim)
  • Coluna capital social em muitos casos tem um monte de zeros a esquerda (ex: 0000050000,00)
  • Em varios casos existe um "backslash" antes do fim do campo (ex: .....";")

Notei tambem que a coluna nome da tabela de socios esta em branco em uma grande quantidade de registros.

@buzios
Copy link
Author

buzios commented Apr 5, 2021

A RF liberou hoje a tarde um novo release de dados de CNPJ.
Os nomes dos arquivos mudaram e agora tem um arquivo de SIMPLES.
Alguns links estao errados com href="http://http//"

@souzagilson15
Copy link

Pois é, em teoria o script não seria mais necessario mesmo para carregar um DB porque os csvs ja estao separados em 3 tabelas (empresas, estabelecimentos e socios). Me parece que deveria existir uma quarta tabela para simples/mei.
Notei porem os seguintes problemas com os csvs:

  • Nao estao em UTF8
  • Varias casos contem brancos no inicio/fim (merecem trim)
  • Coluna capital social em muitos casos tem um monte de zeros a esquerda (ex: 0000050000,00)
  • Em varios casos existe um "backslash" antes do fim do campo (ex: .....";")

Notei tambem que a coluna nome da tabela de socios esta em branco em uma grande quantidade de registros.

ATENÇÃO.

Além desses problemas, nos arquivos extraídos em 16/03/2021 os nomes dos sócios estão totalmente errados. Conferi vários usando a Emissão de Comprovante de Inscrição e de Situação Cadastral da própria receita.

para tentar agilizar a solução abri chamado na https://falabr.cgu.gov.br/Principal.aspx já tive outros casos onde eles responderam bem rápido.

Se vocês puderem abrir chamado lá também talvez ajude a nota o problema.

@buzios
Copy link
Author

buzios commented Apr 13, 2021

A tabela empresas está sem os cnpjs que começam com 0, o que deixa a base bem inconsistente. Referência Base (05/04/2021)

A tabela empresas tem 9.701.387 CNPJs que comecam com 0. Voce nao verificou corretamente.

@rictom
Copy link

rictom commented Apr 13, 2021

Desculpe, eu cometi um engano. No site da SRF tem uns links que estão começando com dois http:// , como http://http//200.152.38.155..., esses arquivos acabei não baixando, por isso estou sem todos os dados.

@juanfariasdev
Copy link

Não estou conseguindo juntar as tabelas ;-; muito menos converter elas para mysql... Alguem poderia me ajudar em algum desses fatores por favor?

@elossio
Copy link

elossio commented Apr 18, 2021

Olá, a Receita Federal soltou uma atualização dos arquivos em 14/04/2021. Alguém chegou a testar se os erros citados aqui já foram sanados?

@souzagilson15
Copy link

Olá, a Receita Federal soltou uma atualização dos arquivos em 14/04/2021. Alguém chegou a testar se os erros citados aqui já foram sanados?

@elossio você tem esse novo link para nos passar? no site da receita vejo que os arquivos foram Atualizado em 05/04/2021 14h43 mas a Data da última extração: 16/03/2021

@elossio
Copy link

elossio commented Apr 19, 2021

Olá, a Receita Federal soltou uma atualização dos arquivos em 14/04/2021. Alguém chegou a testar se os erros citados aqui já foram sanados?

@elossio você tem esse novo link para nos passar? no site da receita vejo que os arquivos foram Atualizado em 05/04/2021 14h43 mas a Data da última extração: 16/03/2021

@souzagilson15 Segue o link http://200.152.38.155/CNPJ/ (Na verdade, os arquivos estão com data de 14/04/2021 mas acho que os dados foram extraídos em 10/04/2021)

@elossio
Copy link

elossio commented Apr 19, 2021

Não estou conseguindo juntar as tabelas ;-; muito menos converter elas para mysql... Alguem poderia me ajudar em algum desses fatores por favor?

@juanfariasdev Você está pensando em fazer um merge das tabelas CSV antes importá-las de uma só vez para o banco? Passa pra gente os seus passos até agora desde o download do site da SRF. Alterei um script em python DownloadCNPJ.py para baixar os arquivos. Você vai notar que alguns dados precisam de tratamento antes de carregá-los para o seu SGDB. Estou usando encoding WIN1252 na importação dos arquivos CSV para o PostGreSQL. Eu costumo fazer a importação individual de cada tabela CSV para acompanhamento dos erros gerados na extração para depois fazer um tratamento antes da carga no banco.

@elossio
Copy link

elossio commented Apr 19, 2021

Sqlite DB que eu gerei com base nos arquivos liberados em 19/4/21 (extraidos em 10/4/21)

https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210410.db.zip
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210410.db.md5
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210410.db.diagrama.png

A tabela de socios melhorou, agora so tem 2.104 socios sem nome
Infelimente continua o problema de nome de socio errado

@buzios, você chegou a notar duplicatas na tabela estabelecimentos? Na minha tabela, a chave primária é composta de cnpj, cnpj_ordem e cnpj_dv, o que me permitiu constatar duplicatas.

@buzios
Copy link
Author

buzios commented Apr 19, 2021

@buzios, você chegou a notar duplicatas na tabela estabelecimentos? Na minha tabela, a chave primária é composta de cnpj, cnpj_ordem e cnpj_dv, o que me permitiu constatar duplicatas.

Não vejo motivo para incluir cnpj_dv na chave primaria. DV é consequencia do cnpj_base + cnpj_ordem.
Faz sentido validar o DV antes de inserir na tabela.

Quanto a sua pergunta, sim tive alguns erros de constraint a saber:
EMPRECSV
10522835 38066899 UNIQUE constraint
12114632 razao_social em branco

ESTABELE
38066899 10522835 UNIQUE constraint

SIMPLCSV
24417449 24539162 30721933 30728066 30760363 30847991 30857441 30886793 30972017 UNIQUE constraint

Os erros acima não deveriam existir porem em se trantando de orgão publico fazendo a coisa com ma vontade ....

O pior porem continua a tabela de socios.
2.104 nomes em branco

Um monte de socio com nome errado.
Exemplo: CNPJ 38338022000139
5 socios com a mesma razao social e CNPJs diferentes

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 34818670000131

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 31122052000164

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 34612852000151

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 22731799000129

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 24692744000182

@elossio
Copy link

elossio commented Apr 19, 2021

@buzios, você chegou a notar duplicatas na tabela estabelecimentos? Na minha tabela, a chave primária é composta de cnpj, cnpj_ordem e cnpj_dv, o que me permitiu constatar duplicatas.

Não vejo motivo para incluir cnpj_dv na chave primaria. DV é consequencia do cnpj_base + cnpj_ordem.
Faz sentido validar o DV antes de inserir na tabela.

Quanto a sua pergunta, sim tive alguns erros de constraint a saber:
EMPRECSV
10522835 38066899 UNIQUE constraint
12114632 razao_social em branco

ESTABELE
38066899 10522835 UNIQUE constraint

SIMPLCSV
24417449 24539162 30721933 30728066 30760363 30847991 30857441 30886793 30972017 UNIQUE constraint

Os erros acima não deveriam existir porem em se trantando de orgão publico fazendo a coisa com ma vontade ....

O pior porem continua a tabela de socios.
2.104 nomes em branco

Um monte de socio com nome errado.
Exemplo: CNPJ 38338022000139
5 socios com a mesma razao social e CNPJs diferentes

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 34818670000131

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 31122052000164

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 34612852000151

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 22731799000129

                [nome] => USINA DE ENERGIA FOTOVOLTAICA PAULO BORINI LTDA
                [cpf_cnpj] => 24692744000182

@buzios Aviso quando concluir a importação da tabela SOCIOCSV. Até agora os erros de constraints são os mesmos. Creio ser possível informar os erros aos responsáveis pela extração. Possivelmente, esta tarefa seja executada pelo SERPRO.

@buzios
Copy link
Author

buzios commented Apr 20, 2021

Problemas na tabela de socios de 10/4/21

Ha 20.333.422 registros na tabela sendo 405.000 socios PJ

393.756 socios PJ estao com o nome (razao social no caso) ERRADO.

@buzios
Copy link
Author

buzios commented Apr 20, 2021

Notei um outro problema. Trata-se do PORTE da empresa.

O novo layout: (2021)
1 – NÃO INFORMADO
2 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS

No layout antigo (2020)
0 – NÃO INFORMADO
1 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS

Não ha nenhum registro com codigo 2
Ha varios registros com codigo 0
Aparentemente continua a ser usado esquema de 2020

@lucasfacchini
Copy link

Olá, disponibilizei uma ferramenta em Python para importar o novo formato em CSV dos arquivos da receita: https://github.com/lucasfacchini/open-data-cnpj-import

Nesse repositorio está contido um script para download e descompactaçāo dos dados, bem como o importador para BD MySQL.

@buzios
Copy link
Author

buzios commented May 13, 2021

Saiu hoje atualizacao dos arquivos de CNPJ.
A data dos arquivos CSV é 12/5/2021
Eu fiz o download e unzipei todos os arquivos.
Todos os arquivos estao integros.

@k0al4
Copy link

k0al4 commented May 13, 2021 via email

@rafaelotorres
Copy link

Oi Pessoal bom dia.

como faço para coletar dados contendo email e telefone?

@buzios
Copy link
Author

buzios commented Jul 20, 2021

Saiu atualizacao
Data da última extração: 16/07/2021

Todos os arquivos estao OK. Baixei todos e "unzipei".

@hugoramos
Copy link

No site tambem diz que mensalmente o governo vai atualizar a base. Alguém sabe dizer como é isso? Eles vão adicionar arquivos mensalmente? Ou vão incrementar no último arquivo ou vão jogar no meio e teremos que todo mês baixar tudo?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

10 participants