forked from rse-r/intro-ii-r-ggplot-ex-ggplot2-template
-
Notifications
You must be signed in to change notification settings - Fork 0
/
01-ggplot2.Rmd
112 lines (72 loc) · 3.82 KB
/
01-ggplot2.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
---
title: "Gráficos con ggplot2"
author: "<tu nombre>"
date: "2022-07-11"
output: html_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
# En este bloque cargá los paquetes que vas a necesitar
library(ggplot2)
```
# Preparación
Esta vez vamos a trabajar con los datos `millas` del paquete datos.
Familiarizate con los datos igual que hiciste en el ejercicio anterior.
```{r}
millas <- datos::millas
```
En los ejercicios siguientes, vas a hacer varios gráficos.
Además de escribir el código para generar el gráfico, escribí como mínimo una oración describiendo qué es lo que ves.
¿Qué relación hay entre las variables?
¿Qué hipótesis te surgen?
# Ejercicios
1. Hacé un gráfico de puntos de "autopista" versus "cilindros".
¿Qué conclusión sacás?
```{r}
ggplot(millas, aes(autopista, cilindros)) +
geom_point()
```
Aparentemente los autos con más cilindros tienden a ser menos eficientes en autopista.
2. Hacé un gráfico similar pero de "autopista" versus "ciudad".
```{r}
ggplot(millas, aes(autopista, ciudad)) +
geom_point()
```
Hay una relación positiva entre eficiencia en ciudad y eficiencia en autopista.
La eficiencia en ciudad es siempre menor que la eficiencia en autopista.
3. ¿Qué pasa cuando haces un gráfico de de "clase" versus "traccion"? ¿Por qué no es útil este gráfico?
```{r}
ggplot(millas, aes(clase, traccion)) +
geom_point()
```
Clase y tracción son dos variables categóricas, entonces los puntos caen todos en el mismo lugar y no puede verse qué cantidad de observaciones hay en cada combinación de categorías. Por ejemplo, no se puede ver cuántos 2asicentos tienen tracción trasera (t).
4. En otro bloque, rehacé el gráfico de "autopista" versus "ciudad" pero ahora asigná la variable "tracción" al color de los puntos.
```{r}
ggplot(millas, aes(autopista, ciudad)) +
geom_point(aes(color = traccion))
```
Los autos con tracción delantera (d) tienden a ser más eficientes que los de 4 ruedas.
5. En otro bloque, rehacé el gráfico de "autopista" versus "ciudad" pero ahora asigná la variable "tracción" al color de los puntos.
```{r}
ggplot(millas, aes(autopista, ciudad)) +
geom_point(aes(color = traccion))
```
5. ¿Qué ocurre si se asigna o mapea una estética a algo diferente del nombre de una variable, como aes(color = cilindrada < 3)?
```{r}
ggplot(millas, aes(autopista, ciudad)) +
geom_point(aes(color = cilindrada < 3))
```
ggplot2 computa `cilindrada < 3` y obtene `TRUE` o `FALSE` para cada observación.
Esto es una variable categórica que se mapea a un color con una escala categórica.
Los autos con cilindrada menor a 3 tienden a ser más eficientes.
6. ¿Notás algún problema con los gráfico anterior? Pensá en qué valores toman los datos de `ciudad` y `autopista`, ¿es posible que no haya ningún auto que haga 20.3 millas por galón en autopista? ¿Qué problemas puede traer eso? Por ejemplo, mirando el gráfico, ¿cuántos autos existe que hagan 20 millas en autopista y 15 en ciudad?
Los datos parecieran estar redondeados al entero. Esto hace que haya muchos datos iguales y que los puntos se superpongan, haciendo imposible saber cuántos autos hay en cada grupo.
7. En el gráfico anterior, reemplazá `geom_point()` por `geom_jitter()`. ¿Qué es lo que sucede? (Podés fijate en la ayuda de `geom_jitter()` si no entendés qué es lo que hace.)
¿Qué ventajas y desventajas tiene este geom?
```{r}
ggplot(millas, aes(autopista, ciudad)) +
geom_jitter(aes(color = cilindrada < 3))
```
`geom_jitter()` mueve un poco los puntos para separar puntos que están uno arriba del otro.
Permite apreciar zonas de mucha o poca densidad de puntos cuando las variables son categóricas o, como en este caso, continuas pero medidas con muy baja precisión.
Lo malo es que se pierde el valor exacto de cada punto.