Modelo de projeto de ciência de dados para ser utilizado como referência em projetos futuros. Desenvolvido por mim, Francisco Bustamante, para alunos iniciantes em ciência de dados de meus cursos e mentorias.
Inspiração: Cookiecutter Data Science
Clique no botão Use this template para criar um novo repositório com base neste modelo.
├── .env <- Arquivo de variáveis de ambiente (não versionar)
├── .gitignore <- Arquivos e diretórios a serem ignorados pelo Git
├── ambiente.yml <- O arquivo de requisitos para reproduzir o ambiente de análise
├── LICENSE <- Licença de código aberto se uma for escolhida
├── README.md <- README principal para desenvolvedores que usam este projeto.
|
├── dados <- Arquivos de dados para o projeto.
|
├── modelos <- Modelos treinados e serializados, previsões de modelos ou resumos de modelos
|
├── notebooks <- Cadernos Jupyter. A convenção de nomenclatura é um número (para ordenação),
│ as iniciais do criador e uma descrição curta separada por `-`, por exemplo
│ `01-fb-exploracao-inicial-de-dados`.
│
| └──src <- Código-fonte para uso neste projeto.
| │
| ├── __init__.py <- Torna um módulo Python
| ├── config.py <- Configurações básicas do projeto
| └── graficos.py <- Scripts para criar visualizações exploratórias e orientadas a resultados
|
├── referencias <- Dicionários de dados, manuais e todos os outros materiais explicativos.
|
├── relatorios <- Análises geradas em HTML, PDF, LaTeX, etc.
│ └── imagens <- Gráficos e figuras gerados para serem usados em relatórios
-
Faça o clone do repositório que será criado a partir deste modelo.
git clone ENDERECO_DO_REPOSITORIO
-
Crie um ambiente virtual para o seu projeto utilizando o gerenciador de ambientes de sua preferência.
a. Caso esteja utilizando o
conda
, exporte as dependências do ambiente para o arquivoambiente.yml
:conda env export > ambiente.yml
b. Caso esteja utilizando outro gerenciador de ambientes, exporte as dependências para o arquivo
requirements.txt
ou outro formato de sua preferência. Adicione o arquivo ao controle de versão, removendo o arquivoambiente.yml
. -
Verifique o arquivo
notebooks/01-fb-exemplo.ipynb
para exemplos de uso do código. -
Renomeie o arquivo
notebooks/01-fb-exemplo.ipynb
para um nome mais apropriado ao seu projeto. E siga a convenção de nomenclatura para os demais notebooks. -
Remova arquivos de exemplo e adicione os arquivos de dados e notebooks do seu projeto.
-
Verifique o arquivo
notebooks/src/config.py
para configurações básicas do projeto. Modifique conforme necessário, adicionando ou removendo caminhos de arquivos e diretórios. -
Atualize o arquivo
referencias/01_dicionario_de_dados.md
com o dicionário de dados do seu projeto. -
Atualize o
README.md
com informações sobre o seu projeto. -
Adicione uma licença ao projeto. Clique aqui se precisar de ajuda para escolher uma licença.
-
Renomeie o arquivo
.env.exemplo
para.env
-
Adicione variáveis de ambiente sensíveis ao arquivo
.env
.
Por padrão, o arquivo .gitignore
já está configurado para ignorar arquivos de dados e
arquivos de Notebook (para aqueles que usam ferramentas como
Jupytext e similares). Adicione ou remova
outros arquivos e diretórios do .gitignore
conforme necessário. Caso deseje adicionar
forçadamente um Notebook ao controle de versão, faça um commit forçado com o
comando git add --force NOME_DO_ARQUIVO.ipynb
.
Para mais informações sobre como usar Git e GitHub, clique aqui. Sobre ambientes virtuais, clique aqui.