$ git clone https://github.com/thimyxuan/newsletter-conversion-rate.git
$ pip install library_name
Pour utiliser ce projet vous aurez besoin d'installer les librairies ci-dessous.
- Python
- Numpy
- Pandas
- Matplotlib
- Seaborn
- Sklearn
- Imblearn
www.datascienceweekly.org souhaite connaître les facteurs qui influencent les visiteurs à s'abonner à la newsletter.
Dans cette étude nous analysons les caractéristiques des visiteurs du site web et en particulier ceux qui s'abonnent à la newsletter. Nous créons un modèle de machine learning supervisé pour prédire avec précision si un utilisateur s'abonnera ou pas.
Le but :
- Utiliser l'EDA pour comprendre quels facteurs influencent les utilisateurs à s'abonner à la newsletter
- Utiliser les techniques de machine learning supervisé pour prédire si un utilisateur s'abonnera ou pas
- Trouver des solutions pour améliorer la performance du modèle dans un cas de classification binaire déséquilibrée
PARTIE 1 - EDA & prétraitement des données
- Nettoyage des données (valeurs abberrantes)
- Statistiques basiques
- Visualisations
PARTIE 2 - Modèle de classification de base
- Modèle de régression logistique
- Preprocessings Sklearn
- Entraînement & prédictions
- Rapport de classification & matrices de confusion
PARTIE 3 - Amélioration du modèle de base
- Sur-échantillonnage SMOTE
- Modèle Random Forest
- Entraînement & prédictions
- Rapport de classification & matrices de confusion
- Importance des features
- Challenge : prédictions sur les données sans label
PARTIE 4 - Conclusion & recommandations