Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

feat: normalize: clean normalization of text input (#15) #49

Merged
merged 3 commits into from
Nov 10, 2022
Merged

Conversation

KameniAlexNea
Copy link
Contributor

No description provided.

@KameniAlexNea
Copy link
Contributor Author

J'ai sauvegardé sous le format zip à cause de la limite d'espaces dans un commit (taille du fichier).

À la fin, je vais voir comment réduire tout ça.

@billmetangmo
Copy link
Member

Bien reçu, je vais regarder ça

@KameniAlexNea
Copy link
Contributor Author

Sinon, je pense avoir fait le tour, si tout est bon pour vous aussi, @billmetangmo peut merger

@billmetangmo
Copy link
Member

billmetangmo commented Oct 28, 2022

oki les chagements sont validés @KameniAlexNea .
J'ai rajouté ton fichier 4.xxxx dans un dossier experiment et j'ai ajouté tes functions de normalisation filter-cameroon.ipynb.
J'ai aussi supprimé ton fichier zip aussi , il est pas nécessaire d'après ton commentaire.

Cf 72ac285

@KameniAlexNea
Copy link
Contributor Author

J'ai l'impression que tu n'as pas fait de merge de ma branche

@billmetangmo billmetangmo reopened this Oct 29, 2022
@billmetangmo
Copy link
Member

billmetangmo commented Oct 29, 2022

Yes t'as raison. Je suis revenu à l'état précédent.
En fait les commits de main que j'ai rajouté se trouvent au-dessus des tiens dans ton historique.
Du coup on aura un commit de plus qui sera un commit de merge avec résolution du conflit.

  • Ce qu'il faudrait faire pour y rémédier c'est que les commits tirés depuis main soient au-dessous des tiens. Comme si tu avais fait refait ta base à partir de main. C'est un rebase.

etape 1: reset ta branche sur ton commit

git checkout alex 
git reset --hard 8b60776e711b512f0ec32679221ed666deffd66b

étape 2: mettre à jour main

git checkout main
git pull --rebase origin main

étape 3: rebase alex sur main

git checkout alex
git rebase master
  • Ensuite, il faudra modifier ton commit pour ajouter entre parenthèses le numéro de l'issue. ça permet d'avoir sur le commit dans github un lien vers l'issue. C'est l'issue Normalisez le titre et l'objet #15 pour toi.
    git commit --amend -m "an updated commit message"

ça ressemblera donc à ça:
image

Copy link
Member

@billmetangmo billmetangmo left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

  • Créer un dossier experiments dans etl pour y mettre le fichier 4.Process_data.ipynb étant donné que les bouts de code importants seront rajoutés dans filter-cameroon.ipynb . C'est pour garder le fichier néanmoins. On utilisera désormais ce dossier experiments pour faire des premiers tests en dehors du code même filter-cameroon. T'en penses koi ?

  • Sinon, on pourrait supprimer le fichier etl/ref-rna-real-mars-2022-enriched-not-qualified-process.zip . Je pense d'après ton commentaire précédent qu'il n'est plus nécessaire

"def remove_closed(df):\n",
" return df[df[\"position\"].str.contains(\"D|S\") == False]\n",
"\n",
"def normalize(df):\n",
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

J'ai introduit une fonction normalize en utilisant les pipelines. Tu pourras reporter dans cette fonction, le code te permettant te modifier de supprimer les guillemets sur objet, titre car ici on n'a pas encore les libellés d'objet social.

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Désolé, je ne suis pas sûr de comprendre la fin

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

C'est une bonne idée d'avoir un dossier spécial pour l'ensemble du code juste.

Copy link
Member

@billmetangmo billmetangmo Nov 2, 2022

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

En fait, je disais qu'il faudrait rajouter ton code qui permet de supprimer les guillemets sur la colonne objet et titre à l'intérieur de la fonction normalize ici:

image

Tu comprends mieux ?

" geometry=[Point(xy) for xy in zip(df3.longitude, df3.latitude)])\n",
"gdf.to_file(\"ref-rna-real-mars-2022.geojson\", driver=\"GeoJSON\")"
"\n",
"def format_libelle_for_gogocarto(df):\n",
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

C'est ici qu'il faudra rajouter aussi la supression des guillemets pour les colonnes objets libellés 1 & 2

Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ici il faut utiliser toujours ta même fonction sui supprime les guillemets mais sur les champs libellés:

image

@KameniAlexNea KameniAlexNea changed the title feat: normalize: clean normalization of text input feat: normalize: clean normalization of text input (#15) Oct 30, 2022
@KameniAlexNea
Copy link
Contributor Author

Stp @billmetangmo tu peux vérifier si ce que j'ai fait est bien dans la direction attendue ? On n'a pas encore pu discuter du prochain point

@billmetangmo
Copy link
Member

billmetangmo commented Nov 2, 2022

Stp @billmetangmo tu peux vérifier si ce que j'ai fait est bien dans la direction attendue ? On n'a pas encore pu discuter du prochain point

Oui @KameniAlexNea c'est dans la bonne direction. T'as fait 70% du boulot. Il reste plus qu'à:

  • Rajouter ton code de supression des guillements comme décrit ici et

  • L'historique n'est pas toujours bon. Mais c'est ma faute, j'ai oublié de te dire qu'il fallait que tu supprimes tous les commits que tu avais pris depuis main avant de rebase.

En fait, il faudrait quitter de ça
image

Vers ceci
image

Pour cela,

git checkout -b alex2 
git reset --hard 8b60776e711b512f0ec32679221ed666deffd66b
git checkout main && git pull --rebase origin main && git checkout -
git rebase main
git cherry-pick 80054ed3dd5a4b5d3d2bab414fbf27a8ce91e8a7
git checkout alex
git reset --hard alex2
git push --force

Enfin, il faut modifier tous tes messages de commit de façon à ajouter (#15)

Sinon pour la suite, je te propose de bosser sur #48 puis #50 et #46 ( dans cet ordre). Les 3 sont liés ( les 2 premières étant plutôt rapides à priori) , il s'agit d'utiliser un certain nombre de bonnes pratiques . L'objectif étant de préparer en amont le pouvoir faire la #8 sans trop de soucis.

@KameniAlexNea
Copy link
Contributor Author

@billmetangmo c'est quand tu veux pour merger

@billmetangmo billmetangmo merged commit 8e14615 into main Nov 10, 2022
@billmetangmo
Copy link
Member

oui @KameniAlexNea tout est bon là. Je merge 👍🏾

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Normalisez le titre et l'objet
2 participants