-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path01-intro.Rmd
142 lines (86 loc) · 13.9 KB
/
01-intro.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
# R
## O que é?
É uma linguagem de programação derivada da linguagem S (1976) e desenvolvida na Bell Laboratories (Atualmente Lucen Technologies) pelo estatístico John McKinley Chambers e colaboradores a qual no início da década de 90 foi implementada pelos estatísticos Ross Ihaka e Robert Gentleman e liberada oficialmente como linguagem R em 1995, sendo a primeira versão estável liberada em 2000 e tem sido constantemente atualizada. Atualmente tem se tornado a principal ferramenta para análise de dados, tanto em meio acadêmico quanto empresarial, principalmente devido ao seu caráter *open-source* (código aberto).
Para maiores informações acesse o site do projeto R em: https://www.r-project.org/about.html.
## Porque usar o R para análise de dados?
A estatística é uma ferramenta essencial para entendermos melhor os ecossistemas que estudamos. Com ela podemos compreender melhor os dados que coletamos, sejam dados biológicos ou ambientais tanto no âmbito de organismos microscópicos como macroscópicos.
Existe uma grande variedade de programas estatísticos que podem satisfazer nossas necessidades de análise dos nossos dados (Statistica, SPSS, past, Primer-E etc). Então, porque devemos usar o programa R?
Primeiramente, o R é gratuito, enquanto a maioria dos outros programas disponíveis no mercado não são baratos podendo a chegar a valores próximo de $6000,00 doláres a assinatura por ano, como no caso do programa SPSS. Em segundo lugar, no R é possível fazer todas as análises que os outros programas fazem, portanto, não é necessário ter mais de um programa para se realizar diversas análises.
Vocês podem estar se perguntando se terão que aprender programação para trabalhar com R. A resposta é sim e não. As análises feitas no R são realizadas através de linhas de comando como em uma linguagem de programação, porém modificada, de mais fácil compreensão e intuítiva. Todavia, nosso objetivo com esta obra é facilitar o seu aprendizado desta linguagem para o universo da análise de dados, por meio de questões e exemplos pertinentes a área ambiental. Por outro lado, é preciso saber como o R se estrutura e funciona, pois um pequeno erro na escrita pode fazer com que a análise não funcione adequadamente. Mas não se preocupe iremos tentar facilitar para você.
Portanto, neste livro mostraremos desde como se importar uma tabela até fazer algumas análises estatísticas e gráficos que são vastamente utilizados na área ambiental.
## O RStudio
O RStudio foi construído especificamente para a linguagem R e é um ambiente de desenvolvimento integrado (no inglês IDE) (Figura \@ref(fig:RStudio)). Ele fornece uma interface gráfica (visa facilitar ao usuário o uso das operações executadas) mais amigável para os usuários em geral, principalmente para quem está iniciando no R. Além disso ele fornece características e recursos importantes para o universo da programação, tais como:
* *syntax highlighthing* que consiste em uma marcação diferenciada que nos sinaliza por meio de cores e outros atributos estéticos (ex.: texto em itálico) o que está sendo escrito, indicando se é um objeto, função ou argumento, por exemplo;
* *code completion* quando digitamos três caracteres de um objeto, função ele sinaliza os demais elementos presentes em sua memória que contém esses três caracteres;
* *smart indentation* o qual faz com que o texto que estamos digitando pule de linha automaticamente ao chegarmos no final do espaço porém ele mantém relação com a linha anterior^[Por padrão esta opção não está ativada, precisa ser ativado nas opções do programa];
* *Execute R code directly from the source editor* neste caso ele tem uma guia destinada ao seu *script*^[Local onde você irá escrever o código para execução de uma determinada tarefa] o qual permite executa-lo diretamente dele e o resultado irá aparecer em outra guia denominada *console*;
* *Quickly jump to function definitions* executada, em Windows e Linux, pelo atalho $ALT + SHIFT + G$ e que permite acessar mais rapidamente uma determinada linha do script;
* *Integrated R help and documentation* o qual traz consigo, em sua IDE, uma guia destinada a ajuda. Além destas ele traz diversas outras funcionalidades que tornam o seu uso diário mais acessível e facilitado. Mais detalhes sobre acesse https://rstudio.com.
```{r RStudio, message = FALSE, echo = FALSE, fig.cap = "Ambiente RStudio.", out.width = '110%'}
knitr::include_graphics('/media/wilson/personaldoc/Livro_R/Série estatística passo a passo em excel e R/livroR-1.0/figures print/RStudio.png')
```
O primeiro passo para que possamos compreender o R e o RStudio e o que podemos fazer com ele consiste em entender a sua estrutura como ela está organizada e o que ela significa. Uma vez compreendida sua estrutura organizacional e funcionalidade poderemos mergulhar no mundo das análises de dados dentro deste novo ambiente.
Para isso veremos as principais guias do RStudio, como elas estão organizadas e quais as suas principais funcionalidades.
1. *Script*: Guia utilizada para escrevermos o nosso código (comandos que executarão uma determinada tarefa) e comentários. Para executar os comandos escritos neste ambiente devemos deixar o cursor na linha que queremos executar e utilizar os atalhos do teclado $(CTRL + ENTER)$ ou $(CTRL + R)$ ou clicar em "**Run**" (Figura \@ref(fig:script)). Todo comando executado irá retornar uma saída na guia do "*console*" (ver item 2). Se o comando executado indicar que o resultado será guardado em um objeto^[Há diferentes tipos de objetos no R, falaremos sobre eles no próximo capítulo.], este irá aparecer na guia "*environment*" (ver item 3). Para salvar o script escrito você deve utilizar a opção *File* na "barra de menus" e clicar em *Save* ou usar o atalho $(CTRL + S)$ ou clicar no icone de "disquete" no canto superior esquerdo desta guia;
```{r script, message = FALSE, echo = FALSE, fig.cap = "Guia do RStudio referente ao ambiente onde o script será desenvolvido.", out.width = '100%'}
knitr::include_graphics('/media/wilson/personaldoc/Livro_R/Série estatística passo a passo em excel e R/livroR-1.0/figures print/script.png')
```
2. *Console*: Guia que indica o resultado do código executado na guia referente ao *script*. Nesta guia também pode ser escrito o código, porém ao pressionar ENTER o código é executado e o resultado é indicado na linha imediatamente inferior (Figura \@ref(fig:console));
```{r console, message = FALSE, echo = FALSE, fig.cap = "Guia do RStudio referente ao ambiente console onde o resultado dos comandos executados irão aparecer.", out.width = '100%'}
knitr::include_graphics('/media/wilson/personaldoc/Livro_R/Série estatística passo a passo em excel e R/livroR-1.0/figures print/console.png')
```
3. *Environment*: Todo objeto^[Elemento que armazena um valor ou estrutura de dados. Todo objeto apresenta uma classe. Os objetos mais comuns são: vetor (objeto que contêm uma sequência unidimensional de elementos), matriz (Objeto bidimensional onde todos os elementos são da mesma classe), data-frame (Objeto bidimensional onde os elementos pertencentes podem ser de classes diferentes) e lista (é um vetor que agrupa, de maneira unidimensional, diferentes objetos). As classes mais comuns são: inteiro (valores quantitativos sem casa decimal), númerico (valores quantitativos com casa decimal), lógico (valores que indicam 0 ou 1, que representam respectivamente verdadeiro ou falso), fator (valores que indicam categorias) e caracter (valores que indicam texto). Vamos utiliza-los sempre que necessário, no decorrer do livro explicando-o seu significado, porém não iremos abordá-los em detalhes.] ou função criada será indicado nesta guia. (Figura \@ref(fig:environment));
```{r environment, message = FALSE, echo = FALSE, fig.cap = "Guia do RStudio referente ao ambiente environment, local onde estarão indicados os objetos criados.", out.width = '60%'}
knitr::include_graphics('/media/wilson/personaldoc/Livro_R/Série estatística passo a passo em excel e R/livroR-1.0/figures print/environment.png')
```
4. *History*: Guia que indica o histórico dos comandos executados (Figura \@ref(fig:history));
```{r history, message = FALSE, echo = FALSE, fig.cap = "Guia do RStudio referente ao ambiente history onde estará listado todos os comandos executados.", out.width = '60%'}
knitr::include_graphics('/media/wilson/personaldoc/Livro_R/Série estatística passo a passo em excel e R/livroR-1.0/figures print/history.png')
```
5. *Files*: Guia que permite a visualização e acesso dos arquivos do computador (Figura \@ref(fig:files)). Sempre defina o ambiente de trabalho^[No próximo capítulo ensinaremos a como definir o ambiente de trabalho] antes de iniciar o seu projeto. As planilhas que serão utilizadas devem estar neste ambiente de trabalho, previamente definido. Embora não seja obrigatório, isso evitará problemas futuros e facilitará o seu trajeto inicial no R. As funções e códigos serão abordados, aqui, seguindo esta ideia.;
```{r files, message = FALSE, echo = FALSE, fig.cap = "Guia do RStudio referente ao ambiente files onde estará indicados os arquivos do nosso computador.", out.width = '60%'}
knitr::include_graphics('/media/wilson/personaldoc/Livro_R/Série estatística passo a passo em excel e R/livroR-1.0/figures print/files.png')
```
6. *Packages*: Guia destinada a visualização, instalação e carregamento dos pacotes/bibliotecas do R. Os pacotes consistem em um grupo de funções, que executam uma determinada ação. Inicialmente quando se instala o R alguns pacotes são automaticamente instalados. Contudo para executar algumas funções é necessário instalar um ou mais pacotes que contenham as funções desejadas. A instalação de pacotes pode ser realizada por linha de comando como será visto no próximo capítulo ou clicando na opção *Install* presente no canto superior esquerdo desta guia. De tempos em tempos os pacotes sofrem alterações, realizado pelos seus desenvolvedores, por isso um hábito importante a ser tomado de tempos em tempos é clicar na opção *Update* ao lado da opção *Install* pois ela irá atualizar os pacotes que estão instalados (Figura \@ref(fig:packages));
```{r packages, message = FALSE, echo = FALSE, fig.cap = "Guia do RStudio referente ao ambiente packages onde estarão listados todos os pacotes disponíveis no nosso computador e por onde poderemos instalar outros.", out.width = '60%'}
knitr::include_graphics('/media/wilson/personaldoc/Livro_R/Série estatística passo a passo em excel e R/livroR-1.0/figures print/packages.png')
```
7. *Plot*: Guia destinada a visualização dos gráficos executados. Algumas opções importantes desta guia é a opção *Export* na região central na barra de ferramentas onde é possível salvar o seu plot como imagem em formato \*.jpg, \*.png e \*.tiff, por exemplo, assim como em \*.pdf ou então a opção de copiar a imagem (*Copy to Clipboard...*) para colar em outro ambiente de trabalho. Uma segunda ferramenta importante é a opção do lado direito de *Export* que é *Remove the current plot* indicada por um quadrado branco com um "x" branco de fundo vermelho no canto superior esquerdo o qual remove a figura que está sendo visualizada neste ambiente, ao lado desta opção tem a figura de uma vassoura denominada *Clear all Plots* que deleta todas as figuras presentes neste ambiente. No lado esquerdo de *Export* temos a opção de *Zoom* o qual amplia a imagem mostrada e ao lado esquerdo desta opção temos setas indicando para direita e para esquerda, que permitem navegar por entre os plots criados durante seu trabalho (Figura \@ref(fig:plot));
```{r plot, message = FALSE, echo = FALSE, fig.cap = "Guia do RStudio referente ao ambiente plot onde estarão os gráficos criados.", out.width = '60%'}
knitr::include_graphics('/media/wilson/personaldoc/Livro_R/Série estatística passo a passo em excel e R/livroR-1.0/figures print/plot.png')
```
8. *Help*: Guia destinada a fornecer informações sobre as funções e pacotes do R. Nesta guia há duas opções importantes na sua barra superior uma encontra-se na barra mais superior indicada por uma lupa onde é possível digitar o nome do pacote ou função em que deseja saber mais sobre, na barra abaixo desta no canto esquerdo há um outro espaço escrito *Find in Topic* onde ele irá buscar o termo digitado dentro do ambiente que está sendo mostrado (Figura \@ref(fig:help));
```{r help, message = FALSE, echo = FALSE, fig.cap = "Guia do RStudio referente ao ambiente help onde terá informações sobre as funções e pacotes do R.", out.width = '60%'}
knitr::include_graphics('/media/wilson/personaldoc/Livro_R/Série estatística passo a passo em excel e R/livroR-1.0/figures print/help.png')
```
## Exercícios
1) Após escrever um comando na guia *script*, como fazemos para executa-lo?
(a) Pressionamos a tecla ENTER
(b) Pressionamos as teclas CTRL + ENTER
(c) Pressionamos as teclas CTRL + SPACE
(d) Pressionamos as teclas SHIFT + ENTER
(e) Presionamos as teclas CTRL + SHIFT + ENTER
2) Após escrevermos um comando na guia *console*, como fazemos para executa-lo?
(a) Pressionamos a tecla ENTER
(b) Pressionamos as teclas CTRL + S
(c) Pressionamos as teclas CTRL + SPACE
(d) Pressionamos as teclas SHIFT + ENTER
(e) Presionamos as teclas CTRL + SHIFT + ENTER
3) Ao realizarmos um gráfico, em que guia ele irá aparecer
(a) *console*
(b) *Viewer*
(c) *Plots*
(d) *Environment*
(e) *Script*
4) Se desejarmos verificar os comandos previamente executados, mesmo após ter reiniciado o R, qual é a melhor forma de consulta?
(a) Verificar o *console*
(b) Acessar a guia *history*
(c) Acessar a guia *environment*
(d) Verificar o *script*
(e) Acessar a guia *help*
5) Se executarmos um comando na guia *script*, em que guia o resultado irá aparecer?
(a) Obrigatoriamente nas guias *console* e *environment*
(b) Obrigatoriamente nas guias *plots* e *console*
(c) Obrigatoriamente na guia *environment*
(d) Obrigatoriamente nas guias *plots* e *environment*
(e) Obrigatoriamente na guia *console*