-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
feat: normalize: clean normalization of text input (#15) #49
Conversation
J'ai sauvegardé sous le format zip à cause de la limite d'espaces dans un commit (taille du fichier). À la fin, je vais voir comment réduire tout ça. |
Bien reçu, je vais regarder ça |
Sinon, je pense avoir fait le tour, si tout est bon pour vous aussi, @billmetangmo peut merger |
oki les chagements sont validés @KameniAlexNea . Cf 72ac285 |
J'ai l'impression que tu n'as pas fait de merge de ma branche |
Yes t'as raison. Je suis revenu à l'état précédent.
etape 1: reset ta branche sur ton commit
étape 2: mettre à jour main
étape 3: rebase alex sur main
|
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
-
Créer un dossier experiments dans etl pour y mettre le fichier 4.Process_data.ipynb étant donné que les bouts de code importants seront rajoutés dans filter-cameroon.ipynb . C'est pour garder le fichier néanmoins. On utilisera désormais ce dossier experiments pour faire des premiers tests en dehors du code même filter-cameroon. T'en penses koi ?
-
Sinon, on pourrait supprimer le fichier etl/ref-rna-real-mars-2022-enriched-not-qualified-process.zip . Je pense d'après ton commentaire précédent qu'il n'est plus nécessaire
etl/filter-cameroon.ipynb
Outdated
"def remove_closed(df):\n", | ||
" return df[df[\"position\"].str.contains(\"D|S\") == False]\n", | ||
"\n", | ||
"def normalize(df):\n", |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
J'ai introduit une fonction normalize en utilisant les pipelines. Tu pourras reporter dans cette fonction, le code te permettant te modifier de supprimer les guillemets sur objet, titre car ici on n'a pas encore les libellés d'objet social.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Désolé, je ne suis pas sûr de comprendre la fin
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
C'est une bonne idée d'avoir un dossier spécial pour l'ensemble du code juste.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
etl/filter-cameroon.ipynb
Outdated
" geometry=[Point(xy) for xy in zip(df3.longitude, df3.latitude)])\n", | ||
"gdf.to_file(\"ref-rna-real-mars-2022.geojson\", driver=\"GeoJSON\")" | ||
"\n", | ||
"def format_libelle_for_gogocarto(df):\n", |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
C'est ici qu'il faudra rajouter aussi la supression des guillemets pour les colonnes objets libellés 1 & 2
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Stp @billmetangmo tu peux vérifier si ce que j'ai fait est bien dans la direction attendue ? On n'a pas encore pu discuter du prochain point |
Oui @KameniAlexNea c'est dans la bonne direction. T'as fait 70% du boulot. Il reste plus qu'à:
En fait, il faudrait quitter de ça Pour cela,
Enfin, il faut modifier tous tes messages de commit de façon à ajouter (#15) Sinon pour la suite, je te propose de bosser sur #48 puis #50 et #46 ( dans cet ordre). Les 3 sont liés ( les 2 premières étant plutôt rapides à priori) , il s'agit d'utiliser un certain nombre de bonnes pratiques . L'objectif étant de préparer en amont le pouvoir faire la #8 sans trop de soucis. |
@billmetangmo c'est quand tu veux pour merger |
oui @KameniAlexNea tout est bon là. Je merge 👍🏾 |
No description provided.