Python 3.x notebooks about real-world data cleaning and visualization

A set of iPython notebooks on data wrangling and visualization for Stanford Computational Journalism, using the standard lib as well as pandas and matplotlib.

(in progress)

NASA plaintext data files
California Dept. of Education Excel spreadsheets - extracting SAT scores and student poverty data from workbooks of various design.
California Dept. of Education fixed-width fields - scraping a HTML table to get the field-boundaries for the CDE's legacy data format for school performance.
Texas Dept. of Justice; Death row inmates - HTML scraping with lxml
Texas Dept. of Justice; Executions - HTML crawling with Beautiful Soup (in progress)

Wrangling

Pivot Tables with Pandas - An exploration into San Francisco crime data.

Visualization

Visualizing the relationship between SAT performance and percentage of students eligible for free-or-reduced-price lunch.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Python 3.x notebooks about real-world data cleaning and visualization

Contents

Practicum

Data extraction

Wrangling

Visualization

Resources

Matplotlib

Pandas

About

Releases

Packages

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
data		data
images		images
scripts		scripts
.gitattributes		.gitattributes
.gitignore		.gitignore
Basic visualization concepts in Matplotlib.ipynb		Basic visualization concepts in Matplotlib.ipynb
Data-Extraction--CDE-API-fixed-width.ipynb		Data-Extraction--CDE-API-fixed-width.ipynb
Data-Extraction--CDE-XLS.ipynb		Data-Extraction--CDE-XLS.ipynb
Data-Extraction--NASA-Text.ipynb		Data-Extraction--NASA-Text.ipynb
Data-Extraction--Texas-Death-Row-Executions.ipynb		Data-Extraction--Texas-Death-Row-Executions.ipynb
Data-Extraction--Texas-Death-Row-Inmates.ipynb		Data-Extraction--Texas-Death-Row-Inmates.ipynb
README.md		README.md
Visualization -- Learning to use pandas and DataFrames with matplotlib.ipynb		Visualization -- Learning to use pandas and DataFrames with matplotlib.ipynb
Visualization--All-About-Labeling.ipynb		Visualization--All-About-Labeling.ipynb
Visualization--Multiples-Variety.ipynb		Visualization--Multiples-Variety.ipynb
Visualization--Multiples-with-Standard-Subplots.ipynb		Visualization--Multiples-with-Standard-Subplots.ipynb
Visualization--School-Scores-and-Poverty.ipynb		Visualization--School-Scores-and-Poverty.ipynb
Wrangling -- Intro to pandas.DataFrames.ipynb		Wrangling -- Intro to pandas.DataFrames.ipynb
Wrangling--Pandas-DataFrame-Concatenations-and-Rolling-Calculations.ipynb		Wrangling--Pandas-DataFrame-Concatenations-and-Rolling-Calculations.ipynb
Wrangling--Pivot-Tables-with-Pandas.ipynb		Wrangling--Pivot-Tables-with-Pandas.ipynb

dannguyen/python-notebooks-data-wrangling

Folders and files

Latest commit

History

Repository files navigation

Python 3.x notebooks about real-world data cleaning and visualization

Contents

Practicum

Data extraction

Wrangling

Visualization

Resources

Matplotlib

Pandas

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages