Skip to content

Latest commit

 

History

History
133 lines (92 loc) · 3.97 KB

Pandas.md

File metadata and controls

133 lines (92 loc) · 3.97 KB

Pandas é uma biblioteca poderosa para análise e manipulação de dados em Python. Com Pandas, é fácil ler, limpar, transformar e visualizar dados em formatos como tabelas, o que é muito útil para explorar grandes conjuntos de dados de maneira eficiente. Aqui estão algumas operações comuns e exemplos práticos para análise de dados com Pandas.

1. Importar Pandas e Carregar Dados

Primeiro, você precisa importar o Pandas e carregar seus dados. Pandas permite carregar dados de vários formatos, como CSV, Excel, JSON, entre outros.

import pandas as pd

# Exemplo de carregar um arquivo CSV
df = pd.read_csv('dados.csv')  # substitua pelo caminho do seu arquivo
print(df.head())  # mostra as primeiras linhas do DataFrame

2. Explorando os Dados

Uma das primeiras coisas a fazer com um conjunto de dados é explorá-lo para entender sua estrutura e conteúdo.

# Ver as primeiras linhas do DataFrame
print(df.head())

# Informações sobre o DataFrame (tipos de dados e contagem de valores não nulos)
print(df.info())

# Estatísticas descritivas (média, desvio padrão, valores mínimos e máximos)
print(df.describe())

3. Limpeza de Dados

Os dados frequentemente contêm valores ausentes ou inconsistências. Pandas fornece funções úteis para limpar esses dados.

# Identificar valores ausentes
print(df.isnull().sum())

# Remover linhas com valores ausentes
df = df.dropna()

# Preencher valores ausentes com a média da coluna
df['coluna'] = df['coluna'].fillna(df['coluna'].mean())

4. Selecionar Colunas e Filtrar Dados

Você pode selecionar colunas específicas ou filtrar linhas com base em certas condições.

# Selecionar uma coluna
coluna_dados = df['coluna']

# Selecionar múltiplas colunas
colunas_dados = df[['coluna1', 'coluna2']]

# Filtrar linhas com base em uma condição
filtro = df[df['coluna'] > 10]

5. Agrupamento e Resumo de Dados

Para realizar análises mais avançadas, você pode agrupar dados por uma coluna e calcular resumos.

# Agrupar por uma coluna e calcular a média
media_por_grupo = df.groupby('coluna_grupo')['coluna_valor'].mean()
print(media_por_grupo)

# Contar o número de ocorrências em cada grupo
contagem_por_grupo = df['coluna_grupo'].value_counts()
print(contagem_por_grupo)

6. Adicionar e Modificar Colunas

Adicionar ou modificar colunas pode ser útil para criar novos insights a partir dos dados existentes.

# Criar uma nova coluna com base em outra coluna
df['nova_coluna'] = df['coluna'] * 2

# Modificar uma coluna existente
df['coluna'] = df['coluna'].apply(lambda x: x * 2 if x > 10 else x)

7. Mesclar e Concatenar DataFrames

Pandas facilita a combinação de diferentes conjuntos de dados, permitindo mesclar (merge) ou concatenar (concat).

# Mesclar dois DataFrames com base em uma chave comum
df1 = pd.DataFrame({'id': [1, 2, 3], 'nome': ['A', 'B', 'C']})
df2 = pd.DataFrame({'id': [1, 2, 4], 'idade': [20, 25, 30]})
df_merged = pd.merge(df1, df2, on='id', how='inner')
print(df_merged)

# Concatenar dois DataFrames ao longo das linhas
df_concat = pd.concat([df1, df2], axis=0)
print(df_concat)

8. Visualização de Dados

Pandas trabalha bem com bibliotecas de visualização, como Matplotlib e Seaborn, para visualização de dados rápida e fácil.

import matplotlib.pyplot as plt

# Histograma de uma coluna
df['coluna'].hist(bins=20)
plt.show()

# Gráfico de barras para contagem por grupo
contagem_por_grupo.plot(kind='bar')
plt.show()

9. Análise Temporal

Se você tiver dados temporais, Pandas facilita a análise com índices de data e hora.

# Converter uma coluna para formato de data
df['data'] = pd.to_datetime(df['data'])

# Filtrar dados de um intervalo de datas
df_filtrado = df[(df['data'] > '2022-01-01') & (df['data'] < '2023-01-01')]

# Agrupar dados por ano e mês
df['ano_mes'] = df['data'].dt.to_period('M')
media_mensal = df.groupby('ano_mes')['coluna'].mean()
print(media_mensal)