Este repositorio contiene los proyectos desarrollados durante el Diplomado en Machine Learning & Data Science de la Universidad Nacional de Colombia. Los proyectos están organizados por módulos y se enfocan en la aplicación de técnicas y herramientas de ciencia de datos en diferentes contextos.
Proyecto aplicado "Pokemon_data"
Archivo: Proyecto Módulo 2.ipynb
En este proyecto, se utilizan modelos de aprendizaje supervisado y no supervisado para analizar un conjunto de datos de pokémon. El objetivo es entender las características de los pokémon, realizar clasificaciones y agrupamientos que permitan encontrar similitudes entre ellos. Las principales técnicas utilizadas incluyen:
- Modelos Supervisados: Para la clasificación de los pokémon según sus características.
- Modelos No Supervisados: Para el agrupamiento de los pokémon y la identificación de patrones ocultos en los datos.
Proyecto BIG DATA: Google Merchandise Store
Archivo: Proyecto Módulo 3.ipynb
Este proyecto aborda el manejo de grandes volúmenes de datos no estructurados utilizando MongoDB y Dask. El conjunto de datos corresponde a los clientes de la Google Merchandise Store, y el objetivo es asegurar que el proceso de Extracción, Transformación y Carga (ETL) sea eficiente. Las principales herramientas y técnicas utilizadas incluyen:
- MongoDB: Para el almacenamiento y la gestión de grandes volúmenes de datos no estructurados.
- Dask: Para la paralelización de tareas y la gestión eficiente de datos a gran escala durante el proceso ETL.
- Python 3.8 o superior
- Jupyter Notebook
- Bibliotecas de Python:
pandas
numpy
scikit-learn
matplotlib
seaborn
mongodb
dask
pymongo
-
Clonar el repositorio
git clone https://github.com/usuario/diplomado-machine-learning.git cd diplomado-machine-learning
-
Instalar las dependencias
pip install pandas numpy scikit-learn matplotlib seaborn pymongo dask
-
Abrir los notebooks
jupyter notebook
- Navegar a los archivos
Proyecto Módulo 2.ipynb
oProyecto Módulo 3.ipynb
y abrirlos en Jupyter Notebook.
- Navegar a los archivos
-
Ejecutar los notebooks
- Seguir las celdas de código en cada notebook para reproducir los análisis y resultados.