analyse-R/graphiques-bivaries-ggplot2 #177

2023-07-28T07:13:57Z

giscus[bot]
bot Jul 28, 2023

analyse-R/graphiques-bivaries-ggplot2

https://larmarange.github.io/analyse-R/graphiques-bivaries-ggplot2.html

JoaoBabadoudou · 2023-07-28T07:14:20Z

JoaoBabadoudou
Jul 28, 2023 — with giscus

Très instructif.

0 replies

Mamadou40 · 2023-08-18T17:24:12Z

Mamadou40
Aug 18, 2023 — with giscus

Bonsoir tout le monde , veuillez m'aidez à éclaircir ces points suivants SVP.

J'ai une question concernant la régression logistique.

Lors de l'enquête chez les agriculteurs pour l'obtention de nos données, les données concernant l'âge et la taille de leurs exploitations on été recueillies par tranche qu'on a ensuite codées dans Excel par des chiffres comme suit ex: 20-29 ans --->1, 30-39 ans --->2 Jusqu'à un échelle de 5, même chose pour la taille de la ferme : moins de 1 ha --->1, 2-5 ha --->2 ainsi de suite jusqu'à échelle de 4. Le même pour le niveau d'étude.

1)Pourquoi quand j'essaie de faire le recode dans R en remplaçant les chiffre par les labels , ces variables sont toujours considérées comme des facteurs et que j'ai pas de statistiques descriptives concernant la moyenne et l'écart type ? Quand j'essaie de forcé les statistiques comme j'ai vu dans les vidéos (web-in R ) en les considérants comme variables numéric continues , j'ai des chiffres sur la moyenne et l'écart type qui sont calculés sur la base du codage ( 1, 2 ,3, 5) et son difficile à interpréter pour moi.

Le problème est que même si j'essaie de faire le grouper les âges et la taille de la ferme dans R avec ( numéric rang...) c'est très difficile puisque les intervalles qui me sont proposées, part de 1 à 5 .

De toute façon je souhaite analyser l'effet continu de l'âge, la taille d'exploitation, le niveau d'étude sur ma la probabilité d'apparition de l'événement.

est-ce que si je fais la régression logistique sur la base de mon codage sur excel, ça n'impactera pas les résultats ?

Cordialement

4 replies

larmarange Aug 19, 2023
Maintainer

Bonjour, l'âge ayant été collecté originellement sous forme d'une variable catégorielle (groupes décennaux), on ne peut tout simplement pas procéder à des analyses numériques du type moyenne / écart-type !

Vous devez traiter cette variable comme une variable catégorielle et un facteur est le bon format pour coder ce type de variable. Vous ne pouvez pas les traiter de manière continue !

Mamadou40 Aug 19, 2023 — with giscus

Donc si je comprends bien, de la manière dont on a collecté les données sur l'âge et la taille de l'exploitation , je dois faire l'analyse descriptive en les considérants comme des facteurs et dans cas je n'aurai que des statistiques sur les pourcentages.

Mais pour la régression logistique,je peux par après évaluer leur effet continue n'est-ce pas ?

larmarange Aug 19, 2023
Maintainer

Tout à fait. Et non, pour la régression logistique, vous ne pouvez pas évaluer leur effet continu.

Mamadou40 Aug 19, 2023 — with giscus

D'accord bien reçu. Merci beaucoup

JoaoBabadoudou · 2023-08-19T00:43:26Z

JoaoBabadoudou
Aug 19, 2023

Bonsoir. Par rapport à ta préoccupation, je pense que le problème se trouve au niveau du questionnaire déjà. Pour obtenir ce que tu veux, il ne fallait pas regrouper en classe déjà dès le départ, mais plutôt prendre les valeurs de l'âge pas à part pour chaque agriculteurs. Le regroupement en classe ne peut te permettre d'avoir une moyenne ou un écart-type, mais plutôt une classe modale. En essayant de forcer dans R, tu auras des résultats erronées. J'espère avoir bien compris ta préoccupation.

…

On Fri, Aug 18, 2023, 6:24 PM Mamadou40 ***@***.***> wrote: Bonsoir tout le monde , veuillez m'aidez à éclaircir ces points suivants SVP. J'ai une question concernant la régression logistique. Lors de l'enquête chez les agriculteurs pour l'obtention de nos données, les données concernant l'âge et la taille de leurs exploitations on été recueillies par tranche qu'on a ensuite codées dans Excel par des chiffres comme suit ex: 20-29 ans --->1, 30-39 ans --->2 Jusqu'à un échelle de 5, même chose pour la taille de la ferme : moins de 1 ha --->1, 2-5 ha --->2 ainsi de suite jusqu'à échelle de 4. Le même pour le niveau d'étude. 1)Pourquoi quand j'essaie de faire le recode dans R en remplaçant les chiffre par les labels , ces variables sont toujours considérées comme des facteurs et que j'ai pas de statistiques descriptives concernant la moyenne et l'écart type ? Quand j'essaie de forcé les statistiques comme j'ai vu dans les vidéos (web-in R ) en les considérants comme variables numéric continues , j'ai des chiffres sur la moyenne et l'écart type qui sont calculés sur la base du codage ( 1, 2 ,3, 5) et son difficile à interpréter pour moi. Le problème est que même si j'essaie de faire le grouper les âges et la taille de la ferme dans R avec ( numéric rang...) c'est très difficile puisque les intervalles qui me sont proposées, part de 1 à 5 . De toute façon je souhaite analyser l'effet continu de l'âge, la taille d'exploitation, le niveau d'étude sur ma la probabilité d'apparition de l'événement. 1. est-ce que si je fais la régression logistique sur la base de mon codage sur excel, ça n'impactera pas les résultats ? Cordialement — Reply to this email directly, view it on GitHub <#177 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/APQJHWGPOY4ZNXEXP7GDODLXV6QMRANCNFSM6AAAAAA23DEORU> . You are receiving this because you commented.Message ID: ***@***.***>

1 reply

Mamadou40 Aug 19, 2023 — with giscus

Oui effectivement je l'ai compris après la collecte de données ,et surtout quand j'ai commencé l'analyse de régression. Mais le questionnaire était déjà préétabli par les responsables avant l'enquête

JoaoBabadoudou · 2023-08-19T00:43:26Z

JoaoBabadoudou
Aug 19, 2023

S'agissant de la régression logistique, il y a une autre manière de recoder que je peux te proposer. Il s'agira de transformer chaque classe en une variable dichotomique. Ce sera 0 si l'individu appartient à la classe et 1 sinon. L'interprétation sera plus aisé. On Sat, Aug 19, 2023, 1:37 AM Joao BABADOUDOU ***@***.***> wrote:

…

Bonsoir. Par rapport à ta préoccupation, je pense que le problème se trouve au niveau du questionnaire déjà. Pour obtenir ce que tu veux, il ne fallait pas regrouper en classe déjà dès le départ, mais plutôt prendre les valeurs de l'âge pas à part pour chaque agriculteurs. Le regroupement en classe ne peut te permettre d'avoir une moyenne ou un écart-type, mais plutôt une classe modale. En essayant de forcer dans R, tu auras des résultats erronées. J'espère avoir bien compris ta préoccupation. On Fri, Aug 18, 2023, 6:24 PM Mamadou40 ***@***.***> wrote: > Bonsoir tout le monde , veuillez m'aidez à éclaircir ces points suivants > SVP. > > J'ai une question concernant la régression logistique. > > Lors de l'enquête chez les agriculteurs pour l'obtention de nos données, > les données concernant l'âge et la taille de leurs exploitations on été > recueillies par tranche qu'on a ensuite codées dans Excel par des chiffres > comme suit ex: 20-29 ans --->1, 30-39 ans --->2 Jusqu'à un échelle de 5, > même chose pour la taille de la ferme : moins de 1 ha --->1, 2-5 ha --->2 > ainsi de suite jusqu'à échelle de 4. Le même pour le niveau d'étude. > > 1)Pourquoi quand j'essaie de faire le recode dans R en remplaçant les > chiffre par les labels , ces variables sont toujours considérées comme des > facteurs et que j'ai pas de statistiques descriptives concernant la moyenne > et l'écart type ? Quand j'essaie de forcé les statistiques comme j'ai vu > dans les vidéos (web-in R ) en les considérants comme variables numéric > continues , j'ai des chiffres sur la moyenne et l'écart type qui sont > calculés sur la base du codage ( 1, 2 ,3, 5) et son difficile à interpréter > pour moi. > > Le problème est que même si j'essaie de faire le grouper les âges et la > taille de la ferme dans R avec ( numéric rang...) c'est très difficile > puisque les intervalles qui me sont proposées, part de 1 à 5 . > > De toute façon je souhaite analyser l'effet continu de l'âge, la taille > d'exploitation, le niveau d'étude sur ma la probabilité d'apparition de > l'événement. > > 1. est-ce que si je fais la régression logistique sur la base de mon > codage sur excel, ça n'impactera pas les résultats ? > > Cordialement > > — > Reply to this email directly, view it on GitHub > <#177 (comment)>, > or unsubscribe > <https://github.com/notifications/unsubscribe-auth/APQJHWGPOY4ZNXEXP7GDODLXV6QMRANCNFSM6AAAAAA23DEORU> > . > You are receiving this because you commented.Message ID: > ***@***.***> >

1 reply

Mamadou40 Aug 19, 2023 — with giscus

Ok. Dans ce cas , je dois refaire ce codage dans ma base de données excel? Parce que sur R , je sais pas comment le faire( juste un débutant qui s'applique).

Est-ce que je peux avoir une idée à quoi m'attendre au niveau des statistiques descriptives univariées ?
Parce que dans la régression j'essaie de voir l'effet continu de l'âge et la taille de l'exploitation sur la probabilité d'adoption d'un outil de service agricole .

Cordialement

JoaoBabadoudou · 2023-08-19T09:45:20Z

JoaoBabadoudou
Aug 19, 2023

Pour le codage, tu peux le faire dans R comme dans excel. Il y a les fonctions de dplyr qui peuvent te faciliter la tâche. Tu dois garder d'abord les classes pour la statistique descriptive univariée. Il faut sortir le bar chart, la classe modale, tu peux aussi faire la boîte à moustache pour chaque classe. C'est une fois terminé que tu passes au recodage pour la régression logistique. Tu peux atteindre ton objectif pour la régression avec ça.

…

On Sat, Aug 19, 2023, 6:23 AM Mamadou40 ***@***.***> wrote: Ok. Dans ce cas , je dois refaire ce codage dans ma base de données excel? Parce que sur R , je sais pas comment le faire( juste un débutant qui s'applique). Est-ce que je peux avoir une idée à quoi m'attendre au niveau des statistiques descriptives univariées ? Parce que dans la régression j'essaie de voir l'effet continu de l'âge et la taille de l'exploitation sur la probabilité d'adoption d'un outil de service agricole . Cordialement — Reply to this email directly, view it on GitHub <#177 (reply in thread)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/APQJHWGJ3NJEOXJ7KA7QLTDXWBEVZANCNFSM6AAAAAA23DEORU> . You are receiving this because you commented.Message ID: ***@***.***>

1 reply

Mamadou40 Aug 19, 2023 — with giscus

Je vais essayer ça .Merci beaucoup pour votre aide

JoaoBabadoudou · 2023-08-19T10:59:50Z

JoaoBabadoudou
Aug 19, 2023

Je vous en prie.

…

On Sat, Aug 19, 2023, 11:28 AM Mamadou40 ***@***.***> wrote: Je vais essayer ça .Merci beaucoup pour votre aide — Reply to this email directly, view it on GitHub <#177 (reply in thread)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/APQJHWCD7545G2CGFSRKCVDXWCIMJANCNFSM6AAAAAA23DEORU> . You are receiving this because you commented.Message ID: ***@***.***>

0 replies

tim252525 · 2023-11-28T10:15:50Z

tim252525
Nov 28, 2023 — with giscus

Bonjour Mr Larmarange,

Encore merci pour votre super site!! J'aurais une question pour les boites à moustaches avec ggplot/geom_boxplot... comment peut on créer plusieurs types de boites à moustaches sur le même graphe quand on a la même échelle en ordonnée.
Pour reprendre votre exemple : écoute d'un certain style de music en fonction de l'âge on garde âge en ordonnée et écoute du hard rock (oui/non) mais on rajoute plusieurs autre boxplot par exemple écoute musique pop (oui/non,) écoute jazz (oui/non) etc... pour que ce soit sur le même graphique car même ordonnées ça fait donc des boites de moustaches à 3 entrées, mais je ne trouve pas comment réaliser cela... Merci beaucoup :)

Timothée

0 replies

tim252525 · 2023-11-30T17:32:54Z

tim252525
Nov 30, 2023 — with giscus

Bonjour, j'aurais une autre question plus importante que la précédente... est-ce que quelqu'un sait faire des diagramme en bâtons / histogrammes avec ggplot mais avec plusieurs variables discrètes càd on rentre en abscisse les données de plusieurs colonnes différentes mais c'est toujours effectif (ou plutôt pourcentage) qui s'affiche en ordonné car sur la même cohorte avec le même nombre total ??? C'est très facile avec Excel mais pas si simple avec R je trouve... merci bien du retour :)

8 replies

tim252525 Dec 4, 2023 — with giscus

Bonjour,

Merci beaucoup pour cette information qui m'a permet de bien avancer sur le graphique. Un grand merci.

Le problème c'est que je n'arrive pas à enlever les proportions de répondeur non (pour les symptômes) qui ne sont pas utiles.

Je vous met les codes ci-dessous, je sais qu'il y'a une erreur. J'aimerais avoir chaque symptôme en fonction du statut (cas/témoins soit"malade ou non") mais uniquement l'effectif (ou la proportion) qui répond oui pour le symptômes et par doublet de barre cas/témoins

Les codes ci-dessous :

data2 <- data |>
pivot_longer(
cols = c('douleurs','cephalees', 'sommeil'),
names_to = "symptomes",
values_to = "valeurs"
)

ggplot(data2) +
aes(x = symptomes, fill = valeurs, by = statut) +
geom_bar() +
geom_text(aes(label = after_stat(count)), stat = "count", position = position_stack(.5)) +
xlab("Symptoms") +
ylab("Effectifs") +
labs(by = "Statut malade ou non")

Encore un grand merci...

Timothée

larmarange Dec 4, 2023
Maintainer

Si vous voulez représenter des proportions, une astuce consiste a afficher les non en blanc pour les invisibiliser

Sinon, on peut jouer avec stat_weighted_mean. Cf. https://larmarange.github.io/ggstats/articles/stat_weighted_mean.html

Vous transformez votre variable d'intérêt en variable binaire 0/1. Sa moyenne correspond a la proportion

larmarange Dec 4, 2023
Maintainer

Ou alors, pour les effectifs, vous ne garder que les oui (avec filter() sur le jeu de données). Dans ce cas là, stat_count ne comptera que le nombre de oui

tim252525 Dec 5, 2023 — with giscus

Bonjour,

Effectivement c'est top avec "stat_weighted_mean" la méthode qui correspond le mieux à ma situation (représentation de proportions). UN TRES GRAND MERCI SINCEREMENT !!!!!!

Il me reste une dernière chose importante je n'arrive plus du coup à afficher les étiquettes de pourcentage sur le haut des diagrammes en bâtons...
Le code geom_bar(stat = "prop", position = position_dodge(.9)) ne fonctionne pas étant donné qu'on ne peut pas rentrer y = after_stat(prop) puisque j'ai déjà y = as.integer(valeurs == "Oui")
Y'a t'il une autre solution ?

Et à tout hasard (mais ça un peu moins important) y'a t'il un moyen pas trop compliqué d'afficher simplement les petits p au dessus des doublets (car ce sont les symptômes exprimés par les cas/témoins ça évite des redondances dans le tableau).

ENCORE MERCI POUR TOUT...

Timothée

larmarange Dec 5, 2023
Maintainer

Il faut utiliser stat = "weighted_mean" avec les géométrie concernées (geom_text() par exemple) et la valeur calculée est disponible avec after_stat(y)

tim252525 · 2023-12-05T16:45:36Z

tim252525
Dec 5, 2023 — with giscus

Super ça fonctionne !!
UN GRAND MERCI !!! :)

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

analyse-R/graphiques-bivaries-ggplot2 #177

{{title}}

Replies: 9 comments 15 replies

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

analyse-R/graphiques-bivaries-ggplot2 #177

giscus[bot] bot Jul 28, 2023

analyse-R/graphiques-bivaries-ggplot2

Replies: 9 comments · 15 replies

JoaoBabadoudou Jul 28, 2023 — with giscus

Mamadou40 Aug 18, 2023 — with giscus

larmarange Aug 19, 2023 Maintainer

Mamadou40 Aug 19, 2023 — with giscus

larmarange Aug 19, 2023 Maintainer

Mamadou40 Aug 19, 2023 — with giscus

JoaoBabadoudou Aug 19, 2023

Mamadou40 Aug 19, 2023 — with giscus

JoaoBabadoudou Aug 19, 2023

Mamadou40 Aug 19, 2023 — with giscus

JoaoBabadoudou Aug 19, 2023

Mamadou40 Aug 19, 2023 — with giscus

JoaoBabadoudou Aug 19, 2023

tim252525 Nov 28, 2023 — with giscus

tim252525 Nov 30, 2023 — with giscus

tim252525 Dec 4, 2023 — with giscus

larmarange Dec 4, 2023 Maintainer

larmarange Dec 4, 2023 Maintainer

tim252525 Dec 5, 2023 — with giscus

larmarange Dec 5, 2023 Maintainer

tim252525 Dec 5, 2023 — with giscus

giscus[bot]
bot Jul 28, 2023

Replies: 9 comments 15 replies

JoaoBabadoudou
Jul 28, 2023 — with giscus

Mamadou40
Aug 18, 2023 — with giscus

larmarange Aug 19, 2023
Maintainer

larmarange Aug 19, 2023
Maintainer

JoaoBabadoudou
Aug 19, 2023

JoaoBabadoudou
Aug 19, 2023

JoaoBabadoudou
Aug 19, 2023

JoaoBabadoudou
Aug 19, 2023

tim252525
Nov 28, 2023 — with giscus

tim252525
Nov 30, 2023 — with giscus

larmarange Dec 4, 2023
Maintainer

larmarange Dec 4, 2023
Maintainer

larmarange Dec 5, 2023
Maintainer

tim252525
Dec 5, 2023 — with giscus