title | author | date |
---|---|---|
Atividade 01: Análise exploratoria de dados |
Thalles Cotta Fontainha |
19/10/2023 |
# include this code chunk as-is to set options
knitr::opts_chunk$set(comment=NA, prompt=TRUE)
library(Rcmdr)
library(car)
library(RcmdrMisc)
load("/home/sony/Documentos/Mestrado/Conjuntos_de_dados_v2_Thalles/ebmt3.RData")
setwd("/home/sony/Documentos/Mestrado/Conjuntos_de_dados_v2_Thalles")
(Exercício 2) Faça uma tabela de frequências para cada uma das variáveis: age e rfsstat. Quais os percentuais de cada faixa etária e de mortalidade/recidiva no estudo?
local({
.Table <- with(ebmt3, table(age))
cat("\ncounts:\n")
print(.Table)
cat("\npercentages:\n")
print(round(100*.Table/sum(.Table), 2))
})
})
local({
.Table <- with(ebmt3, table(rfsstat))
cat("\ncounts:\n")
print(.Table)
cat("\npercentages:\n")
print(round(100*.Table/sum(.Table), 2))
})
(Resposta 2): No arquivo ebmt3.RData a distribuição percentual da população em diferentes faixas etárias é a seguinte: 19,01% têm idade igual ou inferior a 20 anos, 47,96% têm idade entre 20 e 40 anos, e 33,03% têm idade superior a 40 anos.
(Exercício 3) Faça uma tabela de dupla entrada com as variáveis age (linhas) e rfsstat (colunas), solicitando que sejam mostrados os percentuais nas linhas. Quais os percentuais de pacientes que sobreviveram em cada faixa etária?
library(abind, pos=16)
local({
.Table <- xtabs(~age+rfsstat, data=ebmt3)
cat("\nFrequency table:\n")
print(.Table)
cat("\nRow percentages:\n")
print(rowPercents(.Table))
})
(Resposta 3): Sabendo que "rfstime" é Tempo em dias desde o transplante até a recidiva ou morte ou último acompanhamento (tempo de sobrevivência livre de recidiva).
(Exercício 4) Obtenha a média, mediana, P25, P75 das variáveis prtime e rfstime para cada faixa etária.
library(e1071, pos=17)
numSummary(ebmt3[,c("prtime", "rfstime"), drop=FALSE], groups=ebmt3$age, statistics=c("mean", "sd", "IQR", "quantiles"), quantiles=c(.25,.75))
(Exercício 5): Faça um diagrama de barras lado a lado e condicional, com as percentagens da variável rfsstat para cada categoria da variável tcd. Comente o gráfico.
with(ebmt3, Barplot(rfsstat, by=tcd, style="parallel", legend.pos="above", xlab="rfsstat", ylab="Percent", main="Exercicio 5", scale="percent", label.bars=TRUE))
(Resposta 5): Sabendo que "tcd": depleção de células T ("No TCD", "TCD"). Entre o grupo "censura", 90% tinham "No TCD" enquanto 10% tinham "TCD". Já em "morte/recidiva" 84% tinham "No TCD" enquanto 16% tinham "TCD".
(Exercício 6): Faça um boxplot da variável rfstime para cada subclassificação da doença. Comente o gráfico.
Boxplot(rfstime ~ dissub, data=ebmt3, id=list(method="none"), main="Boxplot do Exercício 6")
(Resposta 6): O boxplot é uma ferramenta visual útil para entender como o tempo de sobrevivência livre de recidiva (rfstime) varia entre diferentes subtipos de leucemia, como AML, ALL e CML. Ele mostra a mediana, quartis e valores extremos, oferecendo uma visão completa da distribuição desses dados. Ao observar o boxplot, os profissionais de saúde podem identificar facilmente casos incomuns em cada subtipo, fornecendo insights valiosos que podem exigir uma atenção especial na análise e tomada de decisões clínicas.
(Comentário do gráfico do exercício 6): A linha mais grossa é a mediana, o percentil 25 a parte de baixo, entre 0 e 500 no eixo y (rfstime) enquanto o percentil 75, valores proximos de 1500 no eixo y também. Ou seja, em geral os 3 tipos de subtipos de leucemia (AML, ALL, CML) possuem comportamento semelhante em termos de rfstime (tempo de sobrevivência livre de recidiva) com valores de mediana proximas também. E também não possem valores de "outlier" que é um valor que se afasta significativamente do padrão geral desse conjunto de dados expresso.
with(ebmt3, Hist(rfstime, scale="frequency", breaks="Sturges", col="darkgray", main="Histograma de frequência relativa da variável rfstime"))