-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy pathRelatorio_Iris_Semabio.Rmd
136 lines (98 loc) · 5.1 KB
/
Relatorio_Iris_Semabio.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
---
title: "Analise dos dados 'iris'"
author: "Carolina Musso"
date: "2023-11-28"
output:
html_document:
df_print: paged
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = F)
if (!require(pacman)) install.packages("pacman")
pacman::p_load(palmerpenguins, tidyverse,
ggstatsplot,gtsummary, ggpubr)
```
## Introdução
Este relatório tem como foco a análise da renomada base de dados Iris, um conjunto de dados clássico no campo da estatística. Originalmente coletada pelo botânico Edgar Anderson e popularizada pelo estatístico Ronald Fisher, a base de dados Iris consiste em 150 observações de três espécies de íris (Iris setosa, Iris virginica e Iris versicolor). Cada observação registra quatro características das flores: o comprimento e a largura da sépala, e o comprimento e a largura da pétala.
Neste relatório, empregaremos técnicas de análise exploratória de dados para extrair insights valiosos sobre as características dessas espécies de íris. Além disso, exploraremos como diferentes métodos de visualização de dados podem ser utilizados para compreender melhor as relações entre as variáveis. O objetivo é proporcionar uma compreensão abrangente da base de dados Iris, servindo como um ponto de referência para futuras análises e utilização de relatórios automatizados.
# Material e métodos
Neste relatório, utilizaremos métodos de análise exploratória de dados para explorar as características físicas dos pinguins e as diferenças entre as espécies. Nosso foco será em destacar padrões interessantes, identificar correlações potenciais e proporcionar insights visuais por meio de gráficos e análises estatísticas.
# Resultados
Um gráfico clássico.
```{r}
iris_area <- iris %>%
mutate(area_petala = Petal.Length*Petal.Width/2) %>%
filter(area_petala<=6)
iris_media_area <- iris_area %>%
group_by(Species) %>%
summarise(area_media=mean(area_petala),
area_dp=sd(area_petala))
graf1 <- iris_media_area %>%
ggplot(aes(x=Species, y=area_media)) +
geom_col(fill="#9c9ff7",
color="#684dcf")+
geom_errorbar(aes(ymin = area_media-area_dp,
ymax = area_media+area_dp),
width=0.3,
color="#684dcf")+
theme_classic(base_size = 16)+
labs(x = "",
y=expression("Área média da pétala (cm"^2*")"))+
coord_flip()+
theme(axis.text.y = element_text(face = "italic"))
graf1
# Abaixo fazemos o código com o R base, tente transferir para o dplyr
media_virginica <- iris_media_area[iris_media_area$Species=="virginica", "area_media"] |> as.numeric()
media_setosa <- iris_media_area[iris_media_area$Species=="setosa", "area_media"] |> as.numeric()
media_versicolor <- iris_media_area[iris_media_area$Species=="versicolor", "area_media"] |> as.numeric()
# repare onde no no texto estamos "chamando" esses objetos.
```
Vemos no gráfico acima que a média de área da pétala da espécie *Iris virginica* é de `r media_virginica` cm$^2$, a da *Iris versicolor* é de cm$^2$ e a de *Iris setosa* é de `r media_setosa` cm$^2$. Esta última, portanto é a que possui menores pétalas entre as três espécies.
Uma tabela resumo
```{r}
tbl_summary(iris,
by = Species,
statistic = list(all_continuous() ~ "{mean} ({sd})"),
label = list(
Sepal.Length ~ "Comprimento da Sépala",
Sepal.Width ~ "Largura da Sépala",
Petal.Length ~ "Comprimento da Pétala",
Petal.Width ~ "Largura da Pétala")) %>%
modify_header(label ~ "**Variável (cm)**")
```
## Gráficos e testes
```{r}
ggscatter(iris_area,
x = "Sepal.Length",
y = "Petal.Length",
add = "reg.line", # Adicionar linha de regressão
conf.int = TRUE, # Adicionar intervalo de confiança
color = "Species",
palette = "Set1"
) +
stat_cor(aes(color = Species),
label.x = 6.8,label.y=c(2,3,4)) +
labs(x="Comprimento da Pétala (cm)",
y= "Comprimento da Sétala (cm)") # Ajustar posição dos labels
```
```{r}
my_comparisons <- list( c(1, 2), c(1, 3), c(2, 3) )
ggboxplot(iris_area,
x = "Species", y = "area_petala", fill = "Species",
palette = c("green", "blue", "red"),
add.params = list(fill = "white"))+
stat_compare_means(comparisons = my_comparisons,
label.y = c(5, 7.95, 9),
p.adjust.method = "bonferroni",
method = "t.test")+ # Add significance levels
stat_compare_means(label.y = 10,
label.x = 0.75,
method = "anova") +
labs(x="",
y=expression("Área média da pétala (cm"^2*")"))+
theme(axis.text.x = element_text(face="italic"))
```
## Mais Dicas
- Podemos escolher [cores](https://www.color-hex.com) [exatas](https://colorbrewer2.org/#type=sequential&scheme=BuGn&n=3)
- [Temas](https://ggplot2.tidyverse.org/reference/ggtheme.html)
- [Cheat Sheets](https://www.maths.usyd.edu.au/u/UG/SM/STAT3022/r/current/Misc/data-visualization-2.1.pdf)