Curso DCC UChile semestre Primavera 2017
- Exploración y Visualización: 7 y 11 de agosto
- Clasificación: 28 de agosto y 1 de septiembre
- Clustering: 29 de septiembre y 2 de octubre
- Reglas de Asociación: 23 y 30 de octubre
El resto de las fechas se encuentra en el calendario en U-Cursos (link)
- Tutorial 1: Exploración y Visualización en R
- Tutorial 2: Exploración y Visualización en R
- Tutorial 3: Clasificación
La siguiente es una lista de proyectos sugeridos para el curso. Las fechas de las presentaciones y los entregables se encuentra en U-Cursos.
-
Fairness & Bias (Data Science for Social Good): Un nuevo problema surge con el uso de Machine Learning y Data Mining en contextos sociales, como lo es el sesgo y la discriminación. Esto sugiere encontrar formas de crear modelos que permitan tratar a distintos grupos de manera "justa", pero la definición de justicia es compleja y los problemas se arrastran desde la generación de los datos, la interpretación de éstos y de los modelos, y de cómo repercuten en el futuro. Por ejemplo, un caso emblemático en Estados Unidos fue el de una empresa que ofrecía una predicción de riesgo de criminales por reincidir, y este puntaje es usado por jueces para ajustar las penas. Se observó que este puntaje era asignado de forma desequilibrada a distintos grupos raciales o étnicos. El objetivo de este proyecto es identificar estos sesgos y encontrar formas de disminuirlos, o concluir que no existe tal solución.
- Lectura: Machine Bias
- Análisis de los datos: https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm
- Github: https://github.com/propublica/compas-analysis
- Análisis y datos: https://github.com/caitlinkuhlman/bpdmtutorial/blob/master/tutorial.ipynb
-
Proceso Constituyente Chileno: El portal de datos del Gobierno de Chile liberó la información de las Actas de Encuentros Locales Autoconvocados del Proceso Constituyente Chileno del 2016. La información se encuentra pública y ya se ha realizado trabajos para automatizar algunas tareas de clasificación de los datos.
-
Caracterizar y clasificar problemas de Programación Competitiva: Sitios como http://codeforces.com, http://www.spoj.com, http://a2oj.com, o http://uhunt.felix-halim.net, entre otros, son repositorios de problemas de programación para competencias como la ACM-ICPC, la IEEExtreme, Google Code Jam, etc. Una aplicación interesante consiste en caracterizar los problemas, dadas las categorías (muchos de ellos están etiquetados con tags, o con los comentarios de los usuarios), clasificar un problema en sus categorías, o crear un "recomendador" de problemas de cierta dificultad y/o tema. Existen muchas clasificaciones de problemas, ya sea en los jueces online (como los referenciados anteriormente), o por usuarios que resuelven estos problemas (en blogs, github, etc.).
- Ranking y clasificación de preguntas/respuestas en Yahoo Answers (pedir a José Miguel los datos)
- Juegos Olímpicos 2016 en Twitter (español, inglés y portugués) (pedir a Mauricio los datos)
- Reacciones en Twitter ante la sexta temporada de Game of Thrones (pedir a Mauricio los datos)
- Analizar comentarios a artículos de Emol (pedir a Mauricio los datos)
- Dataset de reviews de cervezas (pedir a José Miguel los datos)
- Dataset de reviews de Amazon (pedir a José Miguel los datos)
- Vox Articles published before March 2017. https://data.world/elenadata/vox-articles
- Portal de Datos Abiertos. http://datos.gob.cl
- Gobierno Transparente. http://transparenciaactiva.presidencia.cl
- Transparencia Universidad de Chile. http://www.uchile.cl/transparencia
- Data.gov. http://www.data.gov
- UCI Machine Learning Repository. https://archive.ics.uci.edu/ml/datasets.html
- Datasets for Data Geeks. http://www.datasets.co
- Stanford Network Analysis Project. https://snap.stanford.edu
- Wikipedia Data Dump. https://en.wikipedia.org/wiki/Wikipedia:Database_download
- DBpedia datasets. http://dbpedia.org/datasets
- Google BigQuery Public Datasets https://cloud.google.com/bigquery/public-data/
- Social and Information Network Analysis http://web.stanford.edu/class/cs224w/resources.html
- Listado de datasets recopilado por KDnuggets. http://www.kdnuggets.com/datasets/index.html
- Listado de datasets recopilado por usuarios de Quora. https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
- Instagram API. https://www.instagram.com/developer/
- Facebook API. https://developers.facebook.com
- Twitter API. https://dev.twitter.com
- Predicción de resultados de partidos de fútbol
- Similitud de Instrucciones en Código de Fuente C#
- Datos de Educación Superior
- Origen y Destino de Viajes en Santiago 2012-2013
- Horse Mining - Minería de Datos en Carreras de Caballos
- Mars Express Power Challenge
- Las Películas (Bechdel Project)
- Solo Todo
- Terremotos en Chile
- Análisis de Emociones sobre mensajes del Foro Institucional de U-Cursos
- Predictor de Peleas UFC
- Clasificador de estilo de arte
- Efectos de fotorrealismo
- Million Song Dataset - Jupyter notebook - Slides
- Clasificación de Películas
- Clasificación de Películas en base al guión
- Predicción de productos Santander - Slides
- Predicción de productos Santander (2)
- Caracterización de Sismos en Twitter
- Clasificación de tweets de alerta
- Caracterización de emergencias en Twitter