forked from uayeb25/survey-cleaning
-
Notifications
You must be signed in to change notification settings - Fork 0
/
correlations.R
126 lines (68 loc) · 3.36 KB
/
correlations.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
library(dplyr)
library(ggplot2)
setwd("/")
setwd("Users/ucaballero/Desktop/repositories/SEMINARIO/Survey analysis/")
survey <- read.csv("survey_cleanned_v2.csv",sep = ",", header = T)
prop.table(table(survey$indice,survey$trabaja),1)
ggplot(survey) +
aes(x = indice, fill = factor(trabaja)) +
geom_bar(position = "stack") +
theme(axis.text.x = element_text(angle = 45))
ggplot(survey) +
aes(x = indice, fill = factor(trabaja)) +
geom_bar(position = "fill") +
theme(axis.text.x = element_text(angle = 45))
chisq.test(table(survey$indice,survey$trabaja))
# H_0: Las categorias de indice y trabaja son independientes.
# H_A: Las categorias son dependientes.
# Regla: Aceptamos nuestras hipotesis nula cuando el p-value de nuestra prueba chis.test es menos a 0.05
# Conclusion: Según nuestro p-value rechazamos nuestra hipotesis nula, por la tanta las variables son dependientes.
##################### Variables categorica con numerica #####################
copy_survey <- survey
survey <- copy_survey
summary(survey)
prop.table(table(survey$estudia_grupo))
str(survey$estudia_grupo)
summary(survey$horas_dedicadas_clase)
##Esto es meramente descriptivo
qqnorm(survey$horas_dedicadas_clase)
qqline(survey$horas_dedicadas_clase)
#Comprobamos normalidad
shapiro.test(survey$horas_dedicadas_clase)
boxplot(survey$horas_dedicadas_clase)
survey[ survey$horas_dedicadas_clase > 17 , "horas_dedicadas_clase"] <- median(survey$horas_dedicadas_clase)
boxplot(survey$horas_dedicadas_clase)
qqnorm(survey$horas_dedicadas_clase)
qqline(survey$horas_dedicadas_clase)
shapiro.test(survey$horas_dedicadas_clase)
#H0: Nuestra distribución es normal
#H1: Nuestra distribución NO es normal
#Conclusion: Como el p-value es mayor a 0.05 no podemos rechazar la hipotesis nula de que nuestros datos son normales
Si_grupo <- survey %>% filter(estudia_grupo == "Sí") %>% select(horas_dedicadas_clase)
no_grupo <- survey %>% filter(estudia_grupo == "No") %>% select(horas_dedicadas_clase)
#SI GRUPO
boxplot(Si_grupo$horas_dedicadas_clase)
qqnorm(Si_grupo$horas_dedicadas_clase)
qqline(Si_grupo$horas_dedicadas_clase)
shapiro.test(Si_grupo$horas_dedicadas_clase)
#H0: Nuestra distribución es normal
#H1: Nuestra distribución NO es normal
#Conclusion: Como el p-value es mayor a 0.05 no podemos rechazar la hipotesis nula de que nuestros datos son normales
#NO GRUPO
boxplot(no_grupo$horas_dedicadas_clase)
qqnorm(no_grupo$horas_dedicadas_clase)
qqline(no_grupo$horas_dedicadas_clase)
shapiro.test(no_grupo$horas_dedicadas_clase)
#H0: Nuestra distribución es normal
#H1: Nuestra distribución NO es normal
#Conclusion: Como el p-value es mayor a 0.05 no podemos rechazar la hipotesis nula de que nuestros datos son normales
#Prueba de homocedasticidad
var.test(no_grupo$horas_dedicadas_clase,Si_grupo$horas_dedicadas_clase)
#Interpretación:
#Con un p-value = 0.1177, mayor de 0.05, no podemos rechazar la hipótesis nula. Por lo tanto suponemos homogeneidad de varianzas.
t.test( no_grupo$horas_dedicadas_clase,Si_grupo$horas_dedicadas_clase, # dos muestras
alternative = "two.sided", # contraste bilateral
paired = FALSE, # muestras independientes
var.equal = TRUE ) # se supone homocedasticidad
#Interpretación:
#Con un p-value = 0.9637, mayor de 0.05, no podemos rechazar la hipótesis nula. Por lo tanto suponemos que las medias de los grupos son iguales.