-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathStatsThinking21.tex
5385 lines (3985 loc) · 512 KB
/
StatsThinking21.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
% Options for packages loaded elsewhere
\PassOptionsToPackage{unicode}{hyperref}
\PassOptionsToPackage{hyphens}{url}
\PassOptionsToPackage{dvipsnames,svgnames*,x11names*}{xcolor}
%
\documentclass[
12pt,
]{book}
\usepackage{amsmath,amssymb}
\usepackage{lmodern}
\usepackage{ifxetex,ifluatex}
\ifnum 0\ifxetex 1\fi\ifluatex 1\fi=0 % if pdftex
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{textcomp} % provide euro and other symbols
\else % if luatex or xetex
\usepackage{unicode-math}
\defaultfontfeatures{Scale=MatchLowercase}
\defaultfontfeatures[\rmfamily]{Ligatures=TeX,Scale=1}
\setmonofont[Scale=0.7]{Source Code Pro}
\fi
% Use upquote if available, for straight quotes in verbatim environments
\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
\IfFileExists{microtype.sty}{% use microtype if available
\usepackage[]{microtype}
\UseMicrotypeSet[protrusion]{basicmath} % disable protrusion for tt fonts
}{}
\makeatletter
\@ifundefined{KOMAClassName}{% if non-KOMA class
\IfFileExists{parskip.sty}{%
\usepackage{parskip}
}{% else
\setlength{\parindent}{0pt}
\setlength{\parskip}{6pt plus 2pt minus 1pt}}
}{% if KOMA class
\KOMAoptions{parskip=half}}
\makeatother
\usepackage{xcolor}
\IfFileExists{xurl.sty}{\usepackage{xurl}}{} % add URL line breaks if available
\IfFileExists{bookmark.sty}{\usepackage{bookmark}}{\usepackage{hyperref}}
\hypersetup{
pdftitle={Statistical Thinking for the 21st Century},
colorlinks=true,
linkcolor=Maroon,
filecolor=Maroon,
citecolor=Blue,
urlcolor=blue,
pdfcreator={LaTeX via pandoc}}
\urlstyle{same} % disable monospaced font for URLs
\usepackage{color}
\usepackage{fancyvrb}
\newcommand{\VerbBar}{|}
\newcommand{\VERB}{\Verb[commandchars=\\\{\}]}
\DefineVerbatimEnvironment{Highlighting}{Verbatim}{commandchars=\\\{\}}
% Add ',fontsize=\small' for more characters per line
\usepackage{framed}
\definecolor{shadecolor}{RGB}{248,248,248}
\newenvironment{Shaded}{\begin{snugshade}}{\end{snugshade}}
\newcommand{\AlertTok}[1]{\textcolor[rgb]{0.94,0.16,0.16}{#1}}
\newcommand{\AnnotationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\AttributeTok}[1]{\textcolor[rgb]{0.77,0.63,0.00}{#1}}
\newcommand{\BaseNTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\BuiltInTok}[1]{#1}
\newcommand{\CharTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\CommentTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
\newcommand{\CommentVarTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\ConstantTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\ControlFlowTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
\newcommand{\DataTypeTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{#1}}
\newcommand{\DecValTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\DocumentationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\ErrorTok}[1]{\textcolor[rgb]{0.64,0.00,0.00}{\textbf{#1}}}
\newcommand{\ExtensionTok}[1]{#1}
\newcommand{\FloatTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\FunctionTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\ImportTok}[1]{#1}
\newcommand{\InformationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\KeywordTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
\newcommand{\NormalTok}[1]{#1}
\newcommand{\OperatorTok}[1]{\textcolor[rgb]{0.81,0.36,0.00}{\textbf{#1}}}
\newcommand{\OtherTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{#1}}
\newcommand{\PreprocessorTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
\newcommand{\RegionMarkerTok}[1]{#1}
\newcommand{\SpecialCharTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\SpecialStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\StringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\VariableTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\VerbatimStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\WarningTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\usepackage{longtable,booktabs,array}
\usepackage{calc} % for calculating minipage widths
% Correct order of tables after \paragraph or \subparagraph
\usepackage{etoolbox}
\makeatletter
\patchcmd\longtable{\par}{\if@noskipsec\mbox{}\fi\par}{}{}
\makeatother
% Allow footnotes in longtable head/foot
\IfFileExists{footnotehyper.sty}{\usepackage{footnotehyper}}{\usepackage{footnote}}
\makesavenoteenv{longtable}
\usepackage{graphicx}
\makeatletter
\def\maxwidth{\ifdim\Gin@nat@width>\linewidth\linewidth\else\Gin@nat@width\fi}
\def\maxheight{\ifdim\Gin@nat@height>\textheight\textheight\else\Gin@nat@height\fi}
\makeatother
% Scale images if necessary, so that they will not overflow the page
% margins by default, and it is still possible to overwrite the defaults
% using explicit options in \includegraphics[width, height, ...]{}
\setkeys{Gin}{width=\maxwidth,height=\maxheight,keepaspectratio}
% Set default figure placement to htbp
\makeatletter
\def\fps@figure{htbp}
\makeatother
\setlength{\emergencystretch}{3em} % prevent overfull lines
\providecommand{\tightlist}{%
\setlength{\itemsep}{0pt}\setlength{\parskip}{0pt}}
\setcounter{secnumdepth}{5}
\usepackage{fancyhdr} \pagestyle{fancy} \fancyhf{} \fancyhead[LO]{\leftmark} \fancyhead[RE]{\rightmark} \fancyhead[RO,LE]{\thepage} \fancyfoot[RO,LE]{Statistical Thinking for the 21st Century - Poldrack}
\renewcommand{\footrulewidth}{1pt}
\usepackage{booktabs}
\usepackage{longtable}
\usepackage{array}
\usepackage{multirow}
\usepackage{wrapfig}
\usepackage{float}
\usepackage{colortbl}
\usepackage{pdflscape}
\usepackage{tabu}
\usepackage{threeparttable}
\usepackage{threeparttablex}
\usepackage[normalem]{ulem}
\usepackage{makecell}
\usepackage{xcolor}
\ifluatex
\usepackage{selnolig} % disable illegal ligatures
\fi
\newlength{\cslhangindent}
\setlength{\cslhangindent}{1.5em}
\newlength{\csllabelwidth}
\setlength{\csllabelwidth}{3em}
\newenvironment{CSLReferences}[2] % #1 hanging-ident, #2 entry spacing
{% don't indent paragraphs
\setlength{\parindent}{0pt}
% turn on hanging indent if param 1 is 1
\ifodd #1 \everypar{\setlength{\hangindent}{\cslhangindent}}\ignorespaces\fi
% set entry spacing
\ifnum #2 > 0
\setlength{\parskip}{#2\baselineskip}
\fi
}%
{}
\usepackage{calc}
\newcommand{\CSLBlock}[1]{#1\hfill\break}
\newcommand{\CSLLeftMargin}[1]{\parbox[t]{\csllabelwidth}{#1}}
\newcommand{\CSLRightInline}[1]{\parbox[t]{\linewidth - \csllabelwidth}{#1}\break}
\newcommand{\CSLIndent}[1]{\hspace{\cslhangindent}#1}
\title{Statistical Thinking for the 21st Century}
\author{Copyright 2019 Russell A. Poldrack\\
\_\\
Translation to Spanish(MX) by\\
Manuel Mejia\\
Tanya Nuño\\
Lizeth Reyes}
\date{Draft: 2022-01-19}
\begin{document}
\maketitle
{
\hypersetup{linkcolor=}
\setcounter{tocdepth}{1}
\tableofcontents
}
\hypertarget{prefacio}{%
\chapter*{Prefacio}\label{prefacio}}
\addcontentsline{toc}{chapter}{Prefacio}
El objetivo de este libro es contar la historia de la estadística como es usada hoy en día por los investigadores alrededor del mundo. Es una historia diferente a la que es contada por la mayoría de los libros de introducción a la estadística, los cuales se enfocan en enseñar cómo usar un conjunto de herramientas para lograr objetivos muy específicos. Este libro se enfoca en entender las ideas básicas del \emph{pensamiento estadístico} --- una manera sistemática de pensar acerca de cómo describir el mundo y de usar información para tomar decisiones y hacer predicciones, todo en el contexto de la incertidumbre inherente que existe en el mundo real. También brinda métodos que sólo se han hecho alcanzables a partir de los asombrosos logros en poder computacional que han sucedido en las últimas décadas. Análisis que hubieran tomado años en los 1950's ahora pueden completarse en unos cuantos segundos en una computadora estándar, y este poder desata la habilidad de usar simulaciones computacionales para realizarse preguntas de maneras nuevas y potentes.
Este libro también fue escrito en el despertar de la crisis de reproducibilidad que ha envuelto a muchas áreas de la ciencia desde 2010. Una de las raíces importantes de esta crisis está en la manera en que la prueba de hipótesis estadística ha sido usada (y abusada) por los investigadores (como detallo en el último capítulo del libro), y esto se vincula directamente a la educación estadística. Por lo tanto, un objetivo de este libro es resaltar las maneras en las cuales los métodos estadísticos pueden ser problemáticos, y sugerir alternativas.
\hypertarget{por-quuxe9-existe-este-libro}{%
\section{¿Por qué existe este libro?}\label{por-quuxe9-existe-este-libro}}
En 2018, comencé a enseñar un curso de estadística de licenciatura en Stanford (Psych 10/Stats 60). Nunca había enseñado estadística antes, y esta era una oportunidad de sacudir las cosas. He estado cada más insatisfecho con la educación estadística en la licenciatura en psicología, y quería brindar nuevas ideas y aproximaciones a la clase. En particular, quería brindar las aproximaciones que están siendo cada vez más usadas en la práctica estadística real en el siglo 21. Como lo han dicho tan claramente Brad Efron y Trevor Hastie en su libro ``Computer Age Statistical Inference: Algorithms, Evidence, and Data Science,'' estos métodos toman la ventaja del poder computacional de hoy en día para resolver problemas en maneras que van mucho más allá de los métodos estándar que son usualmente enseñados en los cursos de estadística a estudiantes de licenciatura en psicología.
El primer año que enseñé esa clase, usé como libro de texto el increíble libro de Andy Field en su versión de novela gráfica, ``An Adventure in Statistics.'' El libro tiene muchas cosas que realmente me gustan -- en particular, me gusta la manera en que presenta la práctica estadística alrededor de la construcción de modelos, y trata la prueba de hipótesis con suficiente cuidado. Desafortunadamente, a la mayoría de mis estudiantes no les gustó el libro (excepto a los estudiantes de literatura, ¡quienes lo amaron!), principalmente porque implicaba navegar por demasiada historia para llegar al conocimiento estadístico. También lo incontré insuficiente porque había una cantidad de temas (particularmente aquellos del campo de la inteligencia artificial conocidos como \emph{machine learning}) que quería incluir pero que no estaban mencionados en el libro. Finalmente sentí que los estudiantes encontrarían mejor el revisar un libro que siguiera muy de cerca mis clases, por lo que comencé a escribir mis clases en un conjunto de cuadernos computacionales que eventualmente se convertirían en este libro. La estructura de este libro sigue aproximadamente la del libro de Field, porque las clases originalmente se basaron en gran medida en el curso de ese libro, pero el contenido es sustancialmente diferente (y casi seguro que mucho menos divertido o inteligente). También ajusté el libro para el sistema de trimestre de 10 semanas que se usa en Stanford, que provee menos tiempo que el semestre de 16 semanas para los que la mayoría de los libros de texto de estadística están escritos.
\hypertarget{la-era-dorada-de-la-informaciuxf3n}{%
\section{La era dorada de la información}\label{la-era-dorada-de-la-informaciuxf3n}}
A lo largo de este libro he tratado de usar ejemplos de datos reales cuando es posible. Actualmente es bastante fácil porque estamos sumergidos en bases de datos abiertas, provenientes de gobiernos, de científicos, y de compañías que crecientemente hacen disponibles sus datos de manera gratuita. Pienso que usar datos reales es importante porque prepara a los estudiantes para trabajar con datos reales en lugar de datos de juguete, lo que creo que debería ser uno de los objetivos principales del entrenamiento en estadística. También nos ayuda a darnos cuenta (como veremos en varios puntos a lo largo del libro) que los datos no siempre vienen listos para analizarse, y que frecuentemente necesitan un poco de \emph{pelea} para ayudarlos a tener forma. Usando datos reales también podemos mostrar que las distribuciones estadísticas idealizadas frecuentemente asumidas (presupuestas) en los métodos estadísticos no siempre se mantienen en el mundo real -- por ejemplo, como veremos en el Capítulo \ref{summarizing-data}, distribuciones de algunas cantidades en el mundo real (como el número de amigos en Facebook) puede tener colas muy largas que pueden romper varias suposiciones estándares.
Me disculpo de antemano que las bases de datos usadas estén fuertemente centradas en Estados Unidos. Esto es principalmente porque la mejor base de datos para la mayoría de las demostraciones es la Encuesta Nacional de Nutrición y Salud (National Health and Nutrition Examination Survey, NHANES) que está disponible como un paquete de R, y porque muchas otras bases de datos complejas en R (como las del paquete \texttt{fivethirtyeight}) también están basadas en Estados Unidos. Si tienes alguna sugerencia de bases de datos de otras regiones, ¡por favor pásamelas!
\hypertarget{la-importancia-de-hacer-estaduxedsticas}{%
\section{La importancia de hacer estadísticas}\label{la-importancia-de-hacer-estaduxedsticas}}
La única manera de realmente aprender estadística es \emph{haciendo} estadísticas. Mientras que históricamente muchos cursos de estadística se enseñan usando software estadístico gráfico de apuntar-y-dar-click, es cada vez más común que en la educación estadística se usen lenguajes abiertos en los cuales los estudiantes pueden escribir código para hacer sus propios análisis. Pienso que el ser capaz de realizar el código para nuestros propios análisis es esencial para obtener una apreciación más profunda del análisis estadístico, es la razón por la cual se espera que los estudiantes de mi curso en Stanford aprendan a usar el lenguaje de programación R para analizar datos, a la par del conocimiento estadístico que aprenden de este libro.
Este libro tiene dos acompañantes en línea que pueden ayudar al lector a comenzar a aprender a programar; \href{https://statsthinking21.github.io/statsthinking21-R-site/}{uno se enfoca en el lenguaje de programación R}, y el otro \href{https://statsthinking21.github.io/statsthinking21-python/}{se enfoca en el lenguaje Python}. Ambos son trabajos en progreso -- ¡siéntete libre de contribuir!
\hypertarget{un-libro-de-cuxf3digo-abierto-open-source}{%
\section{Un libro de código abierto (open source)}\label{un-libro-de-cuxf3digo-abierto-open-source}}
Este libro pretende ser un documento vivo, razón por la cual su código está disponible en línea en \url{https://github.com/statsthinking21/statsthinking21-core-spanish}. Si encuentra cualquier error en este libro o quieres hacer una sugerencia de cómo mejorarlo, por favor abre un \emph{issue} en el sitio de Github. Incluso mejor, envía un \emph{pull request} con tu cambio sugerido.
Este libro se publica usando la licencia de \href{https://creativecommons.org/licenses/by-nc/2.0/}{Creative Commons Attribution-NonCommercial 2.0 Generic (CC BY-NC 2.0) License}. Por favor, ve los términos de esa licencia para más detalles.
\hypertarget{agradecimientos}{%
\section{Agradecimientos}\label{agradecimientos}}
Primero me gustaría agradecer a Susan Holmes, quien fue la primera en inspirarme a considerar el escribir mi propio libro de estadística. Anna Khazenzon brindó comentarios e inspiración al inicio. Lucy King brindó comentarios y ediciones detalladas en todo el libro, y ayudó a limpiar el código para que fuera consistente con el Tidyverse. Michael Henry Tessler brindó comentarios muy útiles sobre el capítulo de análisis Bayesiano. Agradecimientos particulares van para Yihui Xie, creador del paquete Bookdown, por haber mejorado los usos que hace el libro de las características de Bookdown (incluyendo la habilidad de que los usuarios puedan generar ediciones directamente el botón ``Edit''). Finalmente, Jeanette Mumford brindó sugerencias muy útiles a todo el libro.
También me gustaría agradecer a otras personas quienes brindaron comentarios y sugerencias útiles: Athanassios Protopapas, Wesley Tansey, Jack Van Horn, Thor Aspelund.
Gracias a los siguientes usuarios de Twitter por sus útiles sugerencias: @enoriverbend
Gracias a las siguientes personas quienes han contribuido a ediciones o problemas a través de Github o por email:
Isis Anderson, Larissa Bersh, Isil Bilgin, Forrest Dollins, Chuanji Gao, Nate Guimond, Alan He, Wu Jianxiao, James Kent, Dan Kessler, Philipp Kuhnke, Leila Madeleine, Lee Matos, Ryan McCormick, Jarod Meng, Kirsten Mettler, Shanaathanan Modchalingam, Martijn Stegeman, Mehdi Rahim, Jassary Rico-Herrera, Mingquian Tan, Wenjin Tao, Laura Tobar, Albane Valenzuela, Alexander Wang, Michael Waskom,
barbyh, basicv8vc, brettelizabeth, codetrainee, dzonimn, epetsen, carlosivanr, hktang, jiamingkong, khtan, kiyofumi-kan, NevenaK, ttaweel.
Especialmente gracias a Isil Bilgin por su asistencia en corregir muchos de los asuntos.
\hypertarget{introduction}{%
\chapter{Introducción}\label{introduction}}
``Algún día el pensamiento estadístico será tan necesario para la eficiencia ciudadana como la habilidad de leer y escribir'' - H. G. Wells
\hypertarget{quuxe9-es-el-pensamiento-estaduxedstico}{%
\section{¿Qué es el pensamiento estadístico?}\label{quuxe9-es-el-pensamiento-estaduxedstico}}
El pensamiento estadístico es una manera de entender el mundo complejo mediante la descripción relativamente simple en términos que capturen los aspectos esenciales de su estructura o su función, además de que nos provee con la idea de qué tanta incertidumbre tenemos sobre ese mismo conocimiento. Los fundamentos del pensamiento estadístico vienen principalmente de las matemáticas y estadística, sin embargo, también de las ciencias computacionales, psicología y otras áreas de estudio.
Podemos distinguir el pensamiento estadístico de otras formas de pensamiento que son menos probables de describir el mundo acertadamente. En particular, la intuición humana a menudo intenta responder las mismas preguntas que se pueden contestar con el pensamiento estadístico, pero frecuentemente de manera errónea. Por ejemplo, en años recientes la mayoría de lxs Americanxs han reportado que piensan que los crímenes violentos han empeorado en comparación con años previos (\href{http://www.pewresearch.org/fact-tank/2018/01/30/5-facts-about-crime-in-the-u-s/}{Pew Research Center}). Sin embargo, un análisis estadístico de los datos de violencia criminal muestra que en realidad han ido disminuyendo paulatinamente desde la década de los noventas. La intuición falla porque dependemos de las mejores estimaciones o suposiciones (lo que lxs psicólogxs llaman \emph{heurística}) que a menudo pueden equivocarse. Por ejemplo, las personas con frecuencia juzgan la prevalencia de algún evento (como el crimen violento) utilizando una \emph{heurística de disponibilidad} -- eso es, qué tan fácil podemos pensar en un ejemplo de crimen violento. Por esta razón, nuestros juicios del aumento de las tasas de violencia pueden ser más indicativas de un aumento en la cobertura de noticias, a pesar de una verdadera disminución en dicha tasa de crimen. El pensamiento estadístico nos provee de las herramientas para entender el mundo con más exactitud y superar los sesgos del juicio humano.
\hypertarget{lidiar-con-la-ansiedad-estaduxedstica}{%
\section{Lidiar con la ansiedad estadística}\label{lidiar-con-la-ansiedad-estaduxedstica}}
Muchas personas entran a su primera clase de estadística con mucho temor y ansiedad, especialmente una vez que escuchan que también van a tener que aprender código, a fin de analizar datos. En mi clase le doy a lxs estudientes una encuesta previa a la primera sesión de clase con la intención de medir su actitud hacia la estadística, pidiéndoles que califiquen un número de afirmaciones en una escala del 1 (totalmente en desacuerdo) a 7 (totalmente de acuerdo). Uno de los ítems en la encuesta es ``El pensamiento de inscribirme a un curso de estadística me pone nerviosx.'' En una clase reciente, casi dos tercios de la clase respondió con un cinco o más, y un cuarto de lxs estudiantes mencionó que estaban totalmente de acuerdo con la frase. Entonces si tú te sientes nerviosx acerca de empezar a aprender estadística, no estás solx.
La ansiedad se siente incómoda, pero la psicología nos dice que esta clase de respuesta emocional en realidad puede ayudarnos a desempeñarnos \emph{mejor} en varias tareas, mediante focalizar nuestra atención. Así que si empiezas a sentirte ansiosx por el material en este libro, recuerda que muchxs otrxs leyendo esto se sienten de una manera similar y que esta respuesta emocional en realidad puede ayudarte a aprender mejor el material (¡incluso si no parece de esa manera!).
\hypertarget{quuxe9-puede-hacer-la-estaduxedstica-por-nosotrxs}{%
\section{¿Qué puede hacer la estadística por nosotrxs?}\label{quuxe9-puede-hacer-la-estaduxedstica-por-nosotrxs}}
Hay tres principales cosas que podemos hacer con la estadística:
\begin{itemize}
\tightlist
\item
\emph{Describir}: El mundo es complejo y en ocasiones necesitamos describirlo en una manera simplificada en la que podamos entender.
\item
\emph{Decidir}: En ocasiones necesitamos tomar decisiones basadas en datos, usualmente de cara a la incertidumbre.
\item
\emph{Predecir}: En ocasiones deseamos hacer predicciones sobre nuevas situaciones basadas en nuestro conocimiento de situaciones previas.
\end{itemize}
Veamos un ejemplo de esto en acción, centrado en una pregunta en la que muchxs de nosotrxs estamos interesadxs: ¿Cómo decidimos qué es saludable al comer? Hay diferentes fuentes de guía; pautas alimentarias gubernamentales, libros dietéticos y \emph{bloggers}, sólo por nombrar algunxs. Hay que enfocarnos en una pregunta específica: ¿La grasa saturada en nuestra dieta es algo malo?
Una manera en la que podemos responder esta pregunta es sentido común. Si comemos grasa, ésta se va a convertir en grasa en nuestro cuerpo, ¿cierto? Y todxs hemos visto fotos de arterias obstruidas con grasa, así que comer grasa va a obstruir nuestras arterias, ¿cierto?
Otra manera en la que podemos responder esta pregunta es mediante escuchar a figuras de autoridad. Las pautas alimenticias de la FDA (\emph{Food and Drug Administration}, por sus siglas en inglés) tienen como una de sus recomendaciones clave que ``Un patrón de comida saludable limita las grasas saturadas.'' Uno esperaría que estas pautas estén basadas en ciencia, y en algunos casos es así, pero como Nina Teicholz señaló en su libro ``Big Fat Surprise''(\protect\hyperlink{ref-teic:2014}{Teicholz 2014}), esta recomendación en particular parece estar más basada en el antiguo dogma de investigadores de la nutrición que en evidencia actual.
Finalmente, podríamos revisar verdadera investigación científica. Empecemos por revisar el gran estudio llamado \emph{PURE Study} (por sus siglas en inglés), el cual ha examinado dietas y resultados de salud (incluida la muerte) en más de 135,000 personas de 18 países diferentes. En uno de los análisis de esta base de datos (publicada en \emph{The Lancet} en 2017; \protect\hyperlink{ref-dehg:ment:zhan:2017}{Dehghan et al.} (\protect\hyperlink{ref-dehg:ment:zhan:2017}{2017})), lxs investigadores de PURE reportaron un análisis de cómo el consumo de varias clases de macronutrientes (incluidas las grasas saturadas y carbohidratos) estaba relacionada con la probabilidad de morir durante el tiempo en que se siguió a las personas. Las personas en el estudio fueron seguidas por una duración \emph{mediana} de 7.4 años, significando que la mitad de las personas del estudio fueron seguidas por menos y la otra mitad fue seguida por más de 7.4 años. La Figura \ref{fig:PureDeathSatFat} grafica algunos de los datos del estudio (extraídos del documento), mostrando la relación entre el consumo de las grasas saturadas y carbohidratos y el riesgo de morir por cualquier causa.
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/PureDeathSatFat-1} \caption{Una gráfica de datos del estudio PURE, mostrando la relación entre muerte debido a cualquier causa y la ingesta relativa de grasas saturadas y carbohidratos.}\label{fig:PureDeathSatFat}
\end{figure}
Esta gráfica está basada en diez números. Para obtener estos números, lxs investigadorxs dividieron al grupo de 135,335 participantes (al que llamaremos ``muestra'') en 5 grupos (``quintiles'') después de haberlos ordenado en términos de su ingesta nutrimental; el primer quintil contiene el 20\% de personas con la menor ingesta, y el 5to quintil contiene el 20\% con la mayor ingesta. Lxs investigadorxs luego calcularon qué tan seguido las personas en cada uno de esos grupos había muerto durante el periodo que habían sido estudiadxs. La figura expresa esto en términos del \emph{riesgo relativo} de morir en comparación al quintil menor: Si este número es mayor que uno, significa que las personas en ese grupo son \emph{más} propensas a morir que las personas en el quintil menor, mientras que si es menor que uno, significa que las personas en este grupo son \emph{menos} propensas a morir. La figura es bastante clara: Las personas que comieron más grasas saturadas tenían \emph{menor} probabilidad de morir durante el estudio, con la menor tasa de muerte observada para las personas que estaban en el cuarto quintil (es decir, quienes comieron más grasa que el 60\% más bajo pero menos que el 20\% superior). Lo contrario fue observado en la ingesta de carbohidratos; la mayor cantidad de carbohidratos que una persona comió, la mayor probabilidad que tenían de morir durante el estudio. Este ejemplo muestra cómo podemos utilizar estadística para \emph{describir} una compleja base de datos en términos mucho más sencillos con un conjunto de números; si tenemos que revisar los datos de cada participante del estudio al mismo tiempo, estaríamos saturadxs con datos y sería más complicado observar el patrón que emerge cuando son descritos de una manera más sencilla.
Los números en la Figura \ref{fig:PureDeathSatFat} parecen mostrar que las muertes disminuyen con la ingesta de grasas saturadas y aumentan con la ingesta de carbohidratos, pero también sabemos que hay mucha incertidumbre en los datos; hay algunas personas que murieron de manera prematura incluso si tenían una dieta baja en carbohidratos, y, de manera similar, algunas personas que comían muchísimos carbohidratos pero vivieron hasta una edad avanzada. Dada esta variabilidad, queremos \emph{decidir} si las relaciones que vemos en los datos son lo sucifiente estrechas como para no esperar que ocurran al azar si no hubiera realmente una relación entre la dieta y la longevidad. La estadística nos provee con las herramientas para tomar este tipo de decisones, y a menudo las personas externas ven esto como \emph{el} principal propósito de la estadística. Pero como veremos a lo largo del libro, esta necesidad de tomar decisiones en blanco y negro basadas en evidencias vagas a menudo ha llevado a lxs investigadores por mal camino.
Basándonos en los datos, también nos gustaría hacer predicciones sobre resultados futuros. Por ejemplo, es posible que una compañía de seguros de vida desee usar datos sobre la ingesta de grasas y carbohidratos de una persona en particular para predecir cuánto tiempo es probable que viva. Un aspecto importante de la predicción es que requiere que generalicemos a partir de los datos que ya tenemos a alguna otra situación, a menudo en el futuro; si nuestras conclusiones se limitaran a las personas específicas del estudio en un momento determinado, entonces el estudio no sería muy útil. En general, lxs investigadorxs deben asumir que su muestra particular es representativa de una \emph{población} más grande, lo que requiere que obtengan la muestra de una manera que proporcione una imagen no sesgada de la población. Por ejemplo, si el estudio PURE hubiera reclutado a todos sus participantes de sectas religiosas que practican el vegetarianismo, probablemente no querríamos generalizar los resultados a personas que siguen diferentes estándares dietéticos.
\hypertarget{las-grandes-ideas-de-la-estaduxedstica}{%
\section{Las grandes ideas de la estadística}\label{las-grandes-ideas-de-la-estaduxedstica}}
Hay un número de ideas sumamente básicas que interceptan casi todos los aspectos del pensamiento estadístico. Algunas de ellas son señaladas por (\protect\hyperlink{ref-stig}{Stigler 2016}) en su increíble libro ``Los Siete Pilares de la Sabiduría Estadística,''las cuales he ampliado aquí.
\hypertarget{aprender-de-los-datos}{%
\subsection{Aprender de los datos}\label{aprender-de-los-datos}}
Una forma de pensar en la estadística es como un conjunto de herramientas que nos permiten aprender de los datos. En cualquier situación, comenzamos con un conjunto de ideas o \emph{hipótesis} sobre cuál podría ser el caso. En el estudio PURE, lxs investigadorxs pueden haber comenzado con la expectativa de que comer más grasa conduciría a tasas de mortalidad más altas, dado el dogma negativo predominante sobre las grasas saturadas. Más adelante en el curso presentaremos la idea de \emph{conocimiento previo}, que pretende reflejar el conocimiento que aportamos a una situación. Este conocimiento previo puede variar en su fuerza, a menudo basado en nuestra cantidad de experiencia; si visito un restaurante por primera vez, es probable que tenga una expectativa débil de lo bueno que será, pero si visito un restaurante donde he comido diez veces antes, mis expectativas serán mucho más fuertes. De manera similar, si miro un sitio de reseñas de restaurantes y veo que la calificación promedio de un restaurante de cuatro estrellas se basa solo en tres reseñas, tendré una expectativa más débil de la que tendría si se basara en 300 reseñas.
La estadística nos proporciona una manera de describir cómo se pueden utilizar mejor los nuevos datos para actualizar nuestras creencias y, de esta manera, existen vínculos profundos entre la estadística y la psicología. De hecho, muchas teorías del aprendizaje humano y animal de la psicología están estrechamente alineadas con ideas del nuevo campo del \emph{aprendizaje automático} (\emph{machine learning}). El aprendizaje automático es un campo en la interfaz de las estadísticas y la informática que se centra en cómo construir algoritmos informáticos que puedan aprender de la experiencia. Si bien las estadísticas y el aprendizaje automático a menudo intentan resolver los mismos problemas, los investigadores de estos campos suelen adoptar enfoques muy diferentes; el famoso estadístico Leo Breiman una vez se refirió a ellos como ``Las dos culturas'' para reflejar cuán diferentes pueden ser sus enfoques (\protect\hyperlink{ref-breiman2001}{Breiman 2001}). En este libro intentaré combinar las dos culturas porque ambos enfoques proporcionan herramientas útiles para pensar en los datos.
\hypertarget{agregaciuxf3n-aggregation}{%
\subsection{\texorpdfstring{Agregación (\emph{aggregation})}{Agregación (aggregation)}}\label{agregaciuxf3n-aggregation}}
Otra manera de pensar en la estadística es como ``la ciencia de tirar datos.'' En el ejemplo anterior del estudio PURE, tomamos más de 100,000 números y los condensamos a diez. Es esta clase de \emph{agregación} la que es uno de los conceptos más importantes de la estadística. Cuando fue desarrollado por primera vez, fue revolucionario: si descartamos todos los detalles sobre cada uno de lxs participantes, ¿cómo podemos estar seguros de que no nos estamos perdiendo algo importante?
Como veremos, la estadística nos proporciona formas de caracterizar la estructura de agregados de datos, con fundamentos teóricos que explican por qué esto suele funcionar bien. Sin embargo, también es importante tener en cuenta que la agregación puede ir demasiado lejos, y más adelante encontraremos casos en los que un resumen puede proporcionar una imagen muy engañosa de los datos que están siendo resumidos.
\hypertarget{incertidumbre}{%
\subsection{Incertidumbre}\label{incertidumbre}}
El mundo es un lugar incierto. Ahora sabemos que fumar cigarrillos causa cáncer de pulmón, pero esta causa es probabilística: un hombre de 68 años que ha fumado dos paquetes al día durante los últimos 50 años y sigue fumando tiene un riesgo del 15\% (1 de cada 7) de contraer cáncer de pulmón, que es mucho mayor que la probabilidad de cáncer de pulmón en una persona que no fuma. Sin embargo, también significa que habrá muchas personas que fumarán durante toda su vida y nunca tendrán cáncer de pulmón. La estadística nos proporciona las herramientas para caracterizar la incertidumbre, tomar decisiones en condiciones de incertidumbre y realizar predicciones cuya incertidumbre podemos cuantificar.
A menudo se ve a lxs periodistas escribir que lxs investigadorxs científicxs han ``probado'' algunas hipótesis. Pero el análisis estadístico nunca puede ``probar'' una hipótesis, en el sentido de demostrar que debe ser verdadera (como se haría en una prueba lógica o matemática). La estadística puede proporcionarnos evidencias, pero siempre son provisionales y están sujetas a la incertidumbre que siempre está presente en el mundo real.
\hypertarget{muestrear-de-una-poblaciuxf3n}{%
\subsection{Muestrear de una población}\label{muestrear-de-una-poblaciuxf3n}}
El concepto de agregación implica que podemos obtener información útil al colapsar los datos, pero ¿cuántos datos necesitamos? La idea de \emph{muestreo} dice que podemos resumir una población completa basándonos en solo una pequeña cantidad de muestras de la población, siempre que esas muestras se obtengan de la manera correcta. Por ejemplo, el estudio PURE inscribió una muestra de aproximadamente 135,000 personas, pero su objetivo era proporcionar información sobre los miles de millones de seres humanos que componen la población de la que se tomaron muestras. Como ya comentamos anteriormente, la forma en que se obtiene la muestra del estudio es fundamental, ya que determina qué tan ampliamente podemos generalizar los resultados. Otra idea fundamental sobre el muestreo es que, si bien las muestras más grandes son siempre mejores (en términos de su capacidad para representar con precisión a toda la población), hay rendimientos decrecientes a medida que la muestra aumenta. De hecho, la velocidad a la que disminuye el beneficio de muestras más grandes sigue una regla matemática simple, que crece como la raíz cuadrada del tamaño de la muestra, de modo que para duplicar la calidad de nuestros datos necesitamos cuadriplicar el tamaño de nuestra muestra.
\hypertarget{causalidad-y-estaduxedstica}{%
\section{Causalidad y estadística}\label{causalidad-y-estaduxedstica}}
El estudio PURE pareció proporcionar pruebas bastante sólidas de una relación positiva entre comer grasas saturadas y vivir más tiempo, pero esto no nos dice lo que realmente queremos saber: si comemos más grasas saturadas, ¿nos hará vivir más tiempo? Esto se debe a que no sabemos si existe una relación causal directa entre comer grasas saturadas y vivir más tiempo. Los datos son consistentes con tal relación, pero son igualmente consistentes con algún otro factor que cause tanto una mayor ingesta de grasas saturadas como una vida más larga. Por ejemplo, es probable que las personas que son más ricas consuman más grasas saturadas y las personas más ricas tienden a vivir más tiempo, pero su vida más larga no se debe necesariamente a la ingesta de grasas, sino que podría deberse a una mejor atención de la salud, una reducción del estrés psicológico, mejor calidad de los alimentos o muchos otros factores. Los investigadores del estudio PURE intentaron tener en cuenta estos factores, pero no podemos estar seguros de que sus esfuerzos eliminaron por completo los efectos de otras variables. El hecho de que otros factores puedan explicar la relación entre la ingesta de grasas saturadas y la muerte es un ejemplo de por qué las clases de introducción a la estadística a menudo enseñan que ``la correlación no implica causalidad,'' aunque el renombrado experto en visualización de datos Edward Tufte ha agregado, ``pero seguro que es una pista.''
Aunque la investigación observacional (como el estudio PURE) no puede demostrar de manera concluyente relaciones causales, generalmente pensamos que la causalidad se puede demostrar utilizando estudios que controlan y manipulan experimentalmente un factor específico. En medicina, este tipo de estudio se conoce como \emph{ensayo controlado aleatorio} (ECA, en inglés \emph{randomized controlled trial}, RCT). Digamos que queríamos hacer un ECA para examinar si el aumentar la ingesta de grasas saturadas aumenta la esperanza de vida. Para hacer esto, tomaríamos muestras de un grupo de personas y luego las asignaríamos a un grupo de tratamiento (al que se le indicaría que aumentara su ingesta de grasas saturadas) o un grupo de control (al que se le diría que siguiera comiendo lo mismo que antes) . Es fundamental que asignemos a los individuos a estos grupos al azar. De lo contrario, las personas que eligen el tratamiento pudieran ser diferentes de alguna manera a las personas que eligen el grupo de control -- por ejemplo, pudiera ser más probable que también adopten otros comportamientos saludables. Luego seguiríamos a los participantes a lo largo del tiempo y veríamos cuántas personas de cada grupo murieron. Debido a que asignamos al azar a los participantes a los grupos de tratamiento o de control, podemos estar razonablemente seguros de que no hay otras diferencias entre los grupos que pudieran \emph{confundir} el efecto del tratamiento; sin embargo, todavía no podemos estar seguros porque a veces la aleatorización produce grupos de tratamiento versus grupos de control que \emph{varían} de alguna manera importante. Lxs investigadores a menudo intentan abordar estos factores de confusión mediante análisis estadísticos, pero eliminar la influencia de un factor de confusión de los datos puede resultar muy difícil.
Varios ECA han examinado la cuestión de si cambiar la ingesta de grasas saturadas da como resultado una mejor salud y una vida más larga. Estos ensayos se han centrado en \emph{reducir} las grasas saturadas debido al fuerte dogma entre los investigadores en nutrición de que las grasas saturadas son mortales; la mayoría de estos investigadores probablemente habrían argumentado que no era ético hacer que las personas comieran \emph{más} grasas saturadas. Sin embargo, los ECA han mostrado un patrón muy consistente: en general, no hay un efecto apreciable sobre las tasas de muerte al reducir la ingesta de grasas saturadas.
\hypertarget{objetivos-de-aprendizaje}{%
\section{Objetivos de aprendizaje}\label{objetivos-de-aprendizaje}}
Al leer este capítulo, deberías de ser capaz de:
\begin{itemize}
\tightlist
\item
Describir los objetivos centrales y conceptos fundamentales de la estadística.
\item
Describir la diferencia entre investigación experimental y observacional con respecto a lo que puede inferir sobre la causalidad.
\item
Explicar cómo la aleatorización nos provee de la habilidad para hacer inferencias acerca de la causalidad.
\end{itemize}
\hypertarget{lecturas-sugeridas}{%
\section{Lecturas sugeridas}\label{lecturas-sugeridas}}
\begin{itemize}
\tightlist
\item
\emph{The Seven Pillars of Statistical Wisdom}, por Stephen Stigler.
\item
\emph{The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century}, por David Salsburg.
\item
\emph{Naked Statistics: Stripping the Dread from the Data}, por Charles Wheelan.
\end{itemize}
\hypertarget{working-with-data}{%
\chapter{Trabajar con Datos}\label{working-with-data}}
\hypertarget{quuxe9-son-los-datos}{%
\section{¿Qué son los datos?}\label{quuxe9-son-los-datos}}
Cuando hablamos de los datos lo hacemos en plural. Si te encuentras buscando información de estadística en inglés y aparece como ``data,'' recuerda que se trata de una palabra que siempre permanece en plural.
\hypertarget{datos-cualitativos}{%
\subsection{Datos Cualitativos}\label{datos-cualitativos}}
Los datos se componen de \emph{variables}, en donde una variable refleja una medida o cantidad única. Algunas variables son \emph{cualitativas}, lo que significa que describen una cualidad en lugar de una cantidad numérica. Por ejemplo, en mi curso de estadística generalmente doy un cuestionario introductorio, con el propósito de obtener datos que pueda usar en clase y para aprender más sobre los estudiantes. Una de las preguntas que hago es ``¿Cuál es tu comida favorita?'' a lo cual algunas de las respuestas han sido: arándanos, chocolate, tamales, pasta, pizza y mango. Esos datos no son esencialmente numéricos; podríamos asignarles números a cada uno (1=arándanos, 2=chocolate, etc), pero solamente estaríamos utilizando los números como etiquetas en lugar de números reales. Esto también restringe lo que podríamos hacer con esos números; por ejemplo, no tendría sentido el calcular el promedio de esos números. Sin embargo, a menudo codificaremos datos cualitativos utilizando números para poder trabajar más facilmente con ellos, como verán más adelante en este libro.
\hypertarget{datos-cuantitativos}{%
\subsection{Datos cuantitativos}\label{datos-cuantitativos}}
Más comunmente en estadística trabajaremos con datos \emph{cuantitativos}, lo cual significa que los datos son numéricos. Por ejemplo, aquí en la Tabla \ref{tab:WhyTakingClass} muestra los resultados de otra de las preguntas que realizo en mi clase introductoria, la cual es ``¿Por qué estás tomando esta clase?''
\begin{table}
\caption{\label{tab:WhyTakingClass}Conteos de la prevalencia de diferentes respuestas a la pregunta "¿Por qué estás tomando esta clase"}
\centering
\begin{tabular}[t]{lr}
\toprule
¿Por qué estás tomando esta clase? & Número de estudiantes\\
\midrule
Satisface un requisito de mi plan de estudios & 105\\
Satisface un requisito de General Education Breadth & 32\\
No es requisito, pero estoy interesadx en el tema & 11\\
Otros & 4\\
\bottomrule
\end{tabular}
\end{table}
Nota que las respuestas de lxs estudiantes fueron cualitativas, pero generamos un resumen cuantitativo contando cuántos estudiantes eligieron cada opción.
\hypertarget{tipos-de-nuxfameros}{%
\subsection{Tipos de números}\label{tipos-de-nuxfameros}}
Existen varios tipos diferentes de números con los que trabajamos en estadística. Es importante entender estas diferencias, en parte porque los lenguajes para análisis estadístico como R a menudo los distinguen.
\textbf{Números binarios}. Los más simples son los números binarios -- cero ó uno. A menudo usaremos números binarios para representar si algo es verdadero o falso, o está presente o ausente. Por ejemplo, puede que le pregunte a 10 personas si alguna vez han tenido dolor de cabeza por migraña, registrando sus respuestas como ``Sí'' ó ``No.'' En ocasiones es útil usar valores \emph{lógicos}, los cuales toman los valores de \texttt{VERDADERO} o \texttt{FALSO}. Esto puede ser especialmente útil cuando comenzamos a utilizar lenguajes de programación como R para analizar nuestros datos, ya que, estos lenguajes comprenden los conceptos de VERDADERO y FALSO. De hecho, la mayoría de los lenguajes de programación tratan los valores lógicos y los números binarios de manera equivalente. El número 1 es igual al valor lógico \texttt{VERDADERO}, y el número cero es igual al valor lógico \texttt{FALSO}.
\textbf{Enteros}. Los enteros son números enteros sin fracción o punto decimal. Nos encontramos más comunmente números enteros cuando contamos cosas, pero también ocurren en la medición de aspectos psicológicos. Por ejemplo, en mi cuestionario introductorio administro un set de preguntas sobre actitudes hacia la estadística (tal como ``La estadística me parece misteriosa.''), para lo cual lxs estudiantes responden con un número entre 1 (``Totalmente en desacuerdo'') y 7 (``Totalmente de acuerdo'').
\textbf{Números reales}. En estadística trabajamos más comunmente con números reales, los cuales tienen parte fraccionaria o decimal. Por ejemplo, cuando medimos el peso de alguien, éste puede ser medido a un nivel arbitrario de precisión, desde kilogramos hasta microgramos.
\hypertarget{mediciones-discretas-versus-continuas}{%
\section{Mediciones Discretas versus Continuas}\label{mediciones-discretas-versus-continuas}}
Una medición \emph{discreta} es aquella que toma uno de un conjunto finito de valores particulares. Estos pueden ser valores cualitativos (por ejemplo, diferentes tipos de razas de perros) o valores numéricos (por ejemplo, cuántos amigos tiene unx en Facebook). Es importante recordar que, no hay punto medio en las medidas; no tiene sentido decir que unx tiene 33.7 amigxs.
Una medición \emph{continua} es aquella que es definida en términos de un número real. Puede encontrarse en cualquier parte de un rango particular de valores, aunque usualmente nuestras herramientas de medición pueden limitar la precisión con la que podemos medirla; por ejemplo, una báscula de piso puede medir el peso al kilogramo más cercano, aunque en teoría el peso puede ser medido con mucha mayor precisión.
En los cursos de estadística es común revisar con más detalle las diferentes ``escalas'' de medición, las cuales son discutidas con más detalle en el Apéndice de este capítulo. El punto más importante a recordar de esto es que algunos tipos de estadística no hacen sentido con algunos tipos de datos. Por ejemplo, imagina que reuniéramos el código postal de un grupo de individuos. Esos números son representados como enteros, pero en realidad no se refieren a una escala numérica; cada código postal sirve básicamente como etiqueta para una región diferente. Por esta razón, no tendría sentido hablar del código postal promedio.
\hypertarget{quuxe9-constituye-a-una-buena-mediciuxf3n}{%
\section{¿Qué constituye a una buena medición?}\label{quuxe9-constituye-a-una-buena-mediciuxf3n}}
En muchas áreas, como en la psicología, aquello que estamos midiendo no es una característica física, sino más bien un concepto teórico inobservable, a lo cual usualmente nos referimos como un \emph{constructo}. Por ejemplo, digamos que quiero probar qué tan bien entiendes la distinción entre los diferentes tipos de números descritos anteriormente. Te podría dar un examen sorpresa en donde te haría varias preguntas sobre estos conceptos y contaría cuántas respuestas tienes correctas. Esta prueba puede o puede no ser una buena medición del constructo de tu conocimiento real-- por ejemplo, si escribiera una prueba en una forma confusa o un lenguaje que tú no entiendes, entonces la prueba puede sugerir que no entiendes los conceptos cuando en realidad sí los entiendes. Por otro lado, si te doy una prueba de opción múltiple con muchas respuestas obviamente incorrectas, entonces es posible que puedas desempeñarte bien en la prueba, incluso si en realidad no comprendes el material.
Usualmente es imposible medir un constructo sin cierto margen de error. En el ejemplo de arriba, puede que sepas la respuesta, pero puede que hayas leído mal la pregunta y por ende, obtenido una respuesta incorrecta. En otros casos, puede haber errores intrínsecos con respecto a aquella cosa que quiere ser medida, como cuando medimos cuánto le toma a una persona reaccionar en una simple prueba de tiempo de reacción, las cuales pueden variar de prueba en prueba por muchas razones. Generalmente queremos que nuestro error de medición sea lo más bajo posible, lo que podemos lograr mejorando la calidad de nuestras mediciones (por ejemplo, usando una mejor medición del tiempo para medir el tiempo de reacción), o promediando un mayor número de mediciones individuales.
A veces existe un estándar contra el que se pueden probar otras mediciones, al que podríamos referirnos como un ``estándar dorado'' (\emph{gold standard}) -- por ejemplo, la medición del sueño se puede realizar utilizando muchos dispositivos diferentes (como dispositivos que miden el movimiento de una persona mientras duerme), pero generalmente se consideran inferiores al estandar dorado de la polisomnografía (el cual es un examen que mide ondas cerebrales para cuantificar la cantidad de tiempo que una persona pasa en cada etapa del sueño). A menudo, el estándar dorado es más difícil o más caro de utilizar, y el método más barato es usado incluso cuando pueda tener un mayor margen de error.
Cuando pensamos en aquello que constituye a una buena medición, usualmente distinguimos dos diferentes aspectos que debe tener: debe de ser \emph{confiable}, y debe de ser \emph{válida}.
\hypertarget{confiabilidad}{%
\subsection{Confiabilidad}\label{confiabilidad}}
La confiabilidad se refiere a la consistencia de nuestras mediciones. Una forma común de confiabilidad, conocida como ``confiabilidad test-retest,'' mide qué tan bien concuerdan las mediciones si la misma medición se realiza dos veces. Por ejemplo, si te doy un cuestionario sobre tu actitud con respecto a la estadística hoy, y repito este mismo cuestionario mañana, al comparar tus respuestas en los dos días esperaríamos que tuvieran resultados muy similares entre sí, a menos que algo sucediera entre la aplicación de ambos cuestionarios que haya cambiado tu perspectiva de la estadística (¡como leer este libro!).
Otra forma de evaluar la confiabilidad surge en casos en que los datos incluyen juicios subjetivos. Por ejemplo, digamos que unx investigadorx quiere determinar si un tratamiento cambia qué tan bien interactúa unx niñx que se encuentra dentro del espectro autista con otros niñxs, lo cual es medido a través de expertos que observan al niñx y califican sus interacciones con lxs otrxs niñxs. En este caso queremos asegurarnos de que las respuestas no dependan del individuo que está calificando-- nos gustaría que existiera una alta \emph{confiabilidad entre calificadores}. Esto puede ser evaluado teniendo más de unx solx evaluadorx, y después al comparar sus calificaciones asegurarnos de que concuerden entre sí.
La confiabilidad es importante si queremos comparar una medición con otra, porque la relación entre dos variables diferentes no puede ser más fuerte que la relación entre cualquiera de las variables y ella misma (es decir, su confiabilidad). Esto significa que una medición no confiable nunca puede tener una relación estadísticamente fuerte con cualquier otra medición. Por esta razón, lxs investigadorxs que desarrollan una nueva medición (como un nuevo cuestionario) a menudo realizarán todo lo posible para establecer y mejorar su confiabilidad.
\begin{figure}
\includegraphics[height=0.33\textheight]{StatsThinking21_files/figure-latex/ReliabilityValidity-1} \caption{Una figura mostrando la diferencia entre confiabilidad y validez, usando tiros al blanco. Confiabilidad se refiere a la consistencia de la localización de los tiros, y validez se refiere a la precisión con que los tiros quedaron respecto al centro de las dianas.}\label{fig:ReliabilityValidity}
\end{figure}
\hypertarget{validez}{%
\subsection{Validez}\label{validez}}
La confiabilidad es importante, pero por sí misma no es suficiente: Después de todo, podríamos crear mediciones perfectamente confiables en una prueba de personalidad a través de re-codificar todas las respuestas utilizando el mismo número, sin importar qué haya respondido la persona. Queremos que nuestras mediciones sean también \emph{válidas}-- esto quiere decir que, nos queremos asegurar de que en realidad estemos midiendo el constructo que pensamos que estamos midiendo (Figura \ref{fig:ReliabilityValidity}). Existen varios tipos diferentes de validez que son comúnmente discutidos; a continuación nos enfocaremos en tres de ellos.
\emph{Validez aparente}. ¿La medición tiene sentido de forma aparente? Si te dijera que voy a medir la presión sanguínea de una persona con sólo observar el color de su lengua, probablemente pensarías que esta no es una medición válida aparente. Por otro lado, el utilizar un brazalete para medir la presión sanguínea tiene validez aparente. Esto es solamente un ejemplo simple antes de que nos centremos en aspectos más complejos de la validez.
\emph{Validez de constructo}. Primero hay que preguntarnos, ¿esta medición se relaciona con otras mediciones de una forma apropiada? A menudo esto se subdivide en dos aspectos. \emph{Validez convergente} quiere decir que la medición debería de estar estrechamente relacionada con otras mediciones que se supone reflejan el mismo constructo. Digamos que me interesa medir qué tan extrovertida es una persona mediante un cuestionario o una entrevista. La validez convergente se demostraría si estas dos medidas diferentes estuvieran estrechamente relacionadas entre sí. Por otro lado, las mediciones que se cree que reflejan diferentes constructos no deben estar relacionadas, lo que se conoce como \emph{validez divergente}. Si mi teoría de la personalidad dice que la extraversión y la responsabilidad son dos constructos distintos, entonces también debería poder observar que mi medición de la extraversión \emph{no está relacionada} con la medición de la responsabilidad.
\emph{Validez predictiva} Si nuestras mediciones son verdaderamente válidas, entonces también deberían de poder predecir otros resultados. Por ejemplo, digamos que pensamos que el rasgo psicológico de la búsqueda de sensaciones (el deseo de nuevas experiencias) está relacionado con la toma de riesgos en el mundo real. Para probar la validez predictiva de una medición de la búsqueda de sensaciones, probaríamos qué tan bien los puntajes en la prueba predicen los puntajes en un cuestionario diferente que mide la toma de riesgos en el mundo real.
\hypertarget{objetivos-de-aprendizaje-1}{%
\section{Objetivos de aprendizaje}\label{objetivos-de-aprendizaje-1}}
Al haber leído este capítulo deberías de ser capaz de:
\begin{itemize}
\tightlist
\item
Distinguir entre diferentes tipos de variables (cuantitativas/cualitativas, binarios/enteros/reales, discretos/continuos) y poder dar ejemplos de cada una de estas variables.
\item
Distinguir entre conceptos de confiabilidad y validez y poder aplicar cada concepto a un conjunto de datos en particular.
\end{itemize}
\hypertarget{lecturas-sugeridas-1}{%
\section{Lecturas sugeridas}\label{lecturas-sugeridas-1}}
\begin{itemize}
\tightlist
\item
\href{http://www.personality-project.org/r/book/}{\emph{An Introduction to Psychometric Theory with Applications in R}} - Un libro de texto gratuito en línea sobre medición psicológica.
\end{itemize}
\hypertarget{apuxe9ndice}{%
\section{Apéndice}\label{apuxe9ndice}}
\hypertarget{escalas-de-mediciuxf3n}{%
\subsection{Escalas de medición}\label{escalas-de-mediciuxf3n}}
Todas las variables deben tomar al menos dos valores diferentes posibles (de lo contrario, serían una \emph{constante} en lugar de una variable), pero diferentes valores de la variable pueden relacionarse entre sí de diferentes maneras, a lo cual nos referimos como \emph{escalas de medición}. Hay cuatro formas en las que pueden diferir los diferentes valores de una variable.
\begin{itemize}
\tightlist
\item
\emph{Identidad}: Cada valor de la variable tiene un significado único.
\item
\emph{Magnitud}: Los valores de la variable reflejan diferentes magnitudes y tienen una relación ordenada entre sí-- por lo tanto, algunos valores son mayores y otros son menores.
\item
\emph{Intervalos iguales}: Las unidades a lo largo de la escala de medición son iguales entre sí. Esto quiere decir, por ejemplo, que la diferencia entre 1 y 2 sería igual en su magnitud a la diferencia entre 19 y 20.
\item
\emph{Cero absoluto}: La escala tiene un verdadero punto cero significativo. Por ejemplo, para muchas mediciones de cantidades físicas como la altura o el peso, este es la ausencia total de la cosa que está siendo medida.
\end{itemize}
Hay cuatro escalas diferentes de medición que van de la mano con estas diferentes formas en que los valores de una variable pueden diferir.
\emph{Escala Nominal}. Una variable nominal satisface el criterio de identidad, de modo que cada valor de la variable representa algo diferente, pero los números simplemente sirven como etiquetas cualitativas, como mencionamos al principio. Por ejemplo, es posible que le preguntemos a las personas el partido politico al que se suscriben, y después codificar esa información como números: 1= ``Republicanos,'' 2= ``Demócratas,'' 3= ``Libertarios,'' etc. Sin embargo, los números no tienen ninguna relación ordenada entre sí.
\emph{Escala ordinal}. Una variable ordinal satisface el criterio de identidad y magnitud, de manera que pueden ser ordenados en términos de su magnitud. Por ejemplo, le podemos preguntar a una persona con dolor crónico que llene un formato diario en donde evalúe qué tan mal siente su dolor, utilizando una escala numérica del 1 al 7. Hay que tomar en cuenta que, si bien la persona presumiblemente siente más dolor en un día en el que reporta un 6 frente a un día en que reporta un 3, no tendría sentido decir que su dolor es dos veces más intenso en el primero que en el segundo día; el orden nos da información sobre la magnitud relativa, pero las diferencias entre los valores no son necesariamente iguales en magnitud.
\emph{Escala de Intervalo}. Una escala de intervalo tiene todas las características de una escala ordinal, pero además los intervalos entre unidades en la escala de medición pueden tratarse como iguales. Un ejemplo estándar es la temperatura física medida en grados Celsius o Fahrenheit; la diferencia física entre 10 y 20 grados es la misma que la diferencia física entre 90 y 100 grados, pero cada escala también puede tomar valores negativos.
\emph{Escala de proporción (o de razón)}. Una variable a escala de proporción/razón tiene las cuatro características que se describen anteriormente: Identidad, magnitud, intervalos iguales y cero absoluto. La diferencia entre una variable de escala de razón y una variable de escala de intervalo es que la variable de escala de razón tiene un verdadero punto cero. Ejemplos de variables de escala de razón incluyen la altura y el peso físicos, junto con la temperatura medida en Kelvin.
Hay dos razones importantes a las cuales les debemos de prestar atención a la escala de medición de la variable. En primer lugar, la escala determina qué tipo de operaciones matemáticas podemos aplicar a los datos (see Table \ref{tab:MeasurementTypes}). Una variable nominal solamente se puede comparar por igualdad; es decir, ¿dos observaciones de esa variable tienen el mismo valor numérico? No tendría sentido aplicar otras operaciones matemáticas a una variable nominal, ya que en realidad no funcionan como números en una variable nominal, sino más bien como etiquetas. Con las variables ordinales, también podemos probar si un valor es mayor o menor que otro, pero no podemos hacer ninguna aritmética. Las variables de intervalo y razón nos permiten realizar operaciones aritméticas; con variables de intervalo solo podemos sumar o restar valores, mientras que con variables de razón también podemos multiplicar y dividir valores.
\begin{table}
\caption{\label{tab:MeasurementTypes}Diferentes escalas de medición admiten diferentes tipos de operaciones numéricas.}
\centering
\begin{tabular}[t]{lllll}
\toprule
& Igual/No igual & >/< & +/- & Multiplicar/dividir\\
\midrule
Nominal & OK & & & \\
Ordinal & OK & OK & & \\
Intervalo & OK & OK & OK & \\
Razón & OK & OK & OK & OK\\
\bottomrule
\end{tabular}
\end{table}
Estas restricciones también implican que existen ciertos tipos de estadística que podemos calcular sobre cada tipo de variable. La estadística que solamente se trate de contar los diferentes valores (como el valor más común comunido como \emph{modo}/\emph{moda}), puede ser calculado en cualquiera de los tipos de variables. Otro tipo de estadística está basada en ordenar o en clasificar los valores (como la \emph{mediana}, la cual es el valor que está en medio cuando todos los valores son ordenados por su magnitud), y estos requieren que el valor al menos esté en una escala ordinal. Finalmente, la estadística que se encarga de sumar los valores (como el promedio o \emph{media}), requiere que las variables sean al menos en una escala de intervalo. Habiendo dicho esto, debemos tomar en cuenta que es común que lxs investigadorxs calculen la media de variables que son solo ordinales (como las respuestas en las pruebas de personalidad), pero esto a veces puede ser problemático.
\hypertarget{summarizing-data}{%
\chapter{Resumir datos}\label{summarizing-data}}
Mencioné en la Introducción que uno de los grandes descubrimientos de la estadística es la idea de que podemos entender mejor el mundo si nos deshacemos de información, y eso es justo lo que hacemos cuando resumimos un cojunto de datos.
En este Capítulo discutiremos por qué y cómo resumir datos.
\hypertarget{por-quuxe9-resumir-datos}{%
\section{¿Por qué resumir datos?}\label{por-quuxe9-resumir-datos}}
Cuando resumimos datos, estamos necesariamente tirando información, y uno podría objetar esto plausiblemente. Como un ejemplo, regresemos al estudio PURE que discutimos en el Capítulo 1. ¿No deberíamos pensar que todos los detalles de cada individuo importan, más allá de los que se resumieron en el conjunto de datos? ¿Qué decir de los detalles específicos sobre cómo fue recolectada la información, como el momento del día o el estado de ánimo del participante? Todos esos detalles se pierden cuando resumimos los datos.
Una razón por la que resumimos datos es porque nos provee de una manera de \emph{generalizar} - esto es, hacer enunciados generales que van más allá de observaciones específicas. La importancia de la generalización fue subrayada por el escritor Jorge Luis Borges en su cuento ``Funes El Memorioso,'' donde describe a un individuo que pierde la habilidad de olvidar. Borges se enfoca en la relación entre generalización (i.e.~tirar datos) y el pensamiento: ``Pensar es olvidar diferencias, es generalizar, abstraer. En el abarrotado mundo de Funes no había sino detalles, casi inmediatos.''
Les psicólogues han estudiado por largo tiempo todas las maneras en que la generalización es central al pensamiento. Un ejemplo es la categorización: somos capaces de reconocer fácilmente diferentes ejemplos de la categoría de ``aves'' a pesar de que los ejemplos individuales puedan ser muy diferentes en características superficiales (como un avestruz, un petirrojo, y una gallina). De manera importante, la generalización nos permite hacer predicciones acerca de estos individuos -- en el caso de las aves, podemos predecir que vuelan y comen semillas, y que probablemente no puedan manejar un carro o hablar inglés. Estas predicciones no serán siempre correctas, pero frecuentemente serán suficientemente buenas para ser útiles en el mundo.
\hypertarget{resumir-datos-usando-tablas}{%
\section{Resumir datos usando tablas}\label{resumir-datos-usando-tablas}}
Una manera simple de resumir datos es el generar una tabla que represente el conteo de varios tipos de observaciones. Este tipo de tabla ha sido usado durante miles de años (ve la Figura \ref{fig:salesContract}).
\begin{figure}
\includegraphics[width=8in,height=0.3\textheight]{images/Sales_contract_Shuruppak_Louvre_AO3760} \caption{Una tabla sumeria en el Louvre, que muestra un contrato de venta de una casa y un terreno. Dominio público, via Wikimedia Commons.}\label{fig:salesContract}
\end{figure}
Veamos algunos ejemplos del uso de tablas, usando un conjunto de datos más realista. A lo largo de este libro usaremos la base de datos de la \href{https://www.cdc.gov/nchs/nhanes/index.htm}{Encuesta Nacional de Nutrición y Salud (\emph{National Health and Nutrition Examination Survey, NHANES})}. Este es un estudio en curso que evalúa el status de salud y nutrición de una muestra de personas de los Estados Unidos en múltiples variables diferentes. Aquí usaremos una versión de la base de datos que está disponible para el paquete de software estadístico R. Para este ejemplo, miraremos una variable simple llamada ``PhysActive'' en la base de datos. Esta variable contiene uno de tres diferentes valores: ``Sí'' o ``No'' (indicando si la persona reportó o no el hacer ``deportes moderados o de intensidad vigorosa, actividades de fitness o recreacionales''), o ``NA'' si el dato está perdido para esa persona. Existen varias razones por las cuales el dato podría estar perdido; por ejemplo, esta pregunta no se le realizó a menores a 12 años, mientras que en otros casos una persona adulta podría haber declinado el contestar la pregunta durante la entrevista, o el registro de la respuesta realizado por quien entrevistó podría resultar ilegible.
\hypertarget{frequency-distributions}{%
\subsection{Distribuciones de frecuencias}\label{frequency-distributions}}
Una \emph{distribución} describe cómo los datos se dividen en diferentes valores posibles. Para este ejemplo, veamos cuántas personas caen en cada una de las categorías de actividad física.
\begin{table}
\caption{\label{tab:PhysActiveTable}Distribución de frecuencias de la variable PhysActive}
\centering
\begin{tabular}[t]{l|r}
\hline
PhysActive & AbsoluteFrequency\\
\hline
No & 2473\\
\hline
Yes & 2972\\
\hline
NA & 1334\\
\hline
\end{tabular}
\end{table}
La tabla \ref{tab:PhysActiveTable} muestra las frecuencias de cada uno de los diferentes valores; había 2473 personas que respondieron ``No'' a la pregunta, 2972 que respondieron ``Sí,'' y 1334 de quienes no hubo una respuesta. Llamamos a esto una \emph{distribución de frecuencias} porque nos dice qué tan frecuente sucede en nuestra muestra cada uno de los valores posibles.
Esto nos muestra la frecuencia absoluta de cada una de los diferentes valores, para todas las personas que sí dieron una respuesta. De esta información, podemos ver que hubo más personas respondiendo ``Sí'' que ``No,'' pero puede ser difícil ver qué tan grande es la diferencia relativa sólo viendo estos números absolutos. Por esta razón, frecuentemente preferimos presentar los datos usando \emph{frecuencias relativas}, que se obtienen dividiendo cada frecuencia entre la suma de todas las frecuencias absolutas:
\[
frecuencia\ relativa_i = \frac{frecuencia\ absoluta_i}{\sum_{j=1}^N frecuencia\ absoluta_j}
\]
La frecuencia relativa provee una manera mucho más fácil para observar qué tan grande es la diferencia. También podemos interpretar las frecuencias relativas como porcentajes si las multiplicamos por 100. En este ejemplo, quitaremos los valores NA, porque nos gustaría poder interpretar las frecuencias relativas de las personas físicamente activas versus las inactivas. Sin embargo, para que esto tenga sentido tendríamos que asumir que los valores ``NA'' están perdidos de manera ``aleatoria,'' significando que su presencia o ausencia no está relacionada con el verdadero valor de la variable para esa persona. Por ejemplo, si los participantes inactivos tuvieran mayor probabilidad de rehusarse a contestar la pregunta que los participantes activos, entonces eso \emph{sesgaría} nuestra estimación de la frecuencia de la actividad física, lo que significa que nuestra estimación sería diferente del valor verdadero.
\begin{table}
\caption{\label{tab:PhysActiveTableFiltered}Frecuencias absolutas y relativas, y porcentajes de la variable PhysActive}
\centering
\begin{tabular}[t]{l|r|r|r}
\hline
PhysActive & AbsoluteFrequency & RelativeFrequency & Percentage\\
\hline
No & 2473 & 0.45 & 45\\
\hline
Yes & 2972 & 0.55 & 55\\
\hline
\end{tabular}
\end{table}
La Tabla \ref{tab:PhysActiveTableFiltered} nos deja ver que el 45.4 porciento de los individuos en la muestra NHANES dijo ``No'' y el 54.6 porciento dijo ``Sí.''
\hypertarget{cumulative-distributions}{%
\subsection{Distribuciones acumuladas}\label{cumulative-distributions}}
La variable PhysActive que revisamos arriba sólo tenía dos valores posibles, pero frecuentemente queremos resumir datos que pueden tener más valores posibles. Cuando esos valores son cuantitativos, entonces una manera útil de resumirlos es a través de lo que llamamos una representación de frecuencias \emph{acumuladas}: en lugar de preguntarnos cuántas observaciones toman un valor específico, nos preguntamos cuántas observaciones tienen un valor en específico o \emph{menor a ese valor}.
Démosle un vistazo a otra variable en la base de datos NHANES, llamada \emph{SleepHrsNight} que registra cuántas horas el participante reportó que duerme usualmente entre semana. Construyamos una tabla de frecuencias como la que hicimos arriba, después de quitar a las personas que tienen dato perdido en este pregunta. La Tabla \ref{tab:sleepTable} muestra una tabla de frecuencias creada como las de arriba, después de quitar a todas las personas que tuvieran datos perdidos para esta pregunta. Podemos comenzar a resumir los datos sólo con observar la tabla; por ejemplo, podemos ver que la mayoría de las personas reportan dormir entre 6 y 8 horas. Para ver esto de manera aún más clara, podemos graficar un \emph{histograma} que nos muestre el número de casos que tuvieron cada uno de los valores; observa el panel izquierdo de la Figura \ref{fig:sleepHist}. También podemos graficar las frecuencias relativas, a las cuales frecuentemente llamaremos \emph{densidades} - observa el panel derecho de la Figura \ref{fig:sleepHist}.
\begin{table}
\caption{\label{tab:sleepTable}Distribución de frecuencias del número de horas de sueño por noche en la base de datos NHANES}
\centering
\begin{tabular}[t]{r|r|r|r}
\hline
SleepHrsNight & AbsoluteFrequency & RelativeFrequency & Percentage\\
\hline
2 & 9 & 0.00 & 0.18\\
\hline
3 & 49 & 0.01 & 0.97\\
\hline
4 & 200 & 0.04 & 3.97\\
\hline
5 & 406 & 0.08 & 8.06\\
\hline
6 & 1172 & 0.23 & 23.28\\
\hline
7 & 1394 & 0.28 & 27.69\\
\hline
8 & 1405 & 0.28 & 27.90\\
\hline
9 & 271 & 0.05 & 5.38\\
\hline
10 & 97 & 0.02 & 1.93\\
\hline
11 & 15 & 0.00 & 0.30\\
\hline
12 & 17 & 0.00 & 0.34\\
\hline
\end{tabular}
\end{table}
Desde este momento podemos resumir los datos sólo al observar la tabla; por ejemplo, podemos ver que la mayoría de las personas reportaron dormir entre 6 y 8 horas. Grafiquemos los datos para ver esto de manera más clara. Para hacer esto podemos graficar un \emph{histograma} que nos permite ver el número de casos que hay por cada uno de los valores; ve el panel izquierdo de la Figura \ref{fig:sleepHist}. También podemos graficar las frecuencias relativas, a este tipo de gráfica nos referirimos frecuentemente como \emph{densidades} - ve el panel derecho de la Figura \ref{fig:sleepHist}.
\begin{figure}
\includegraphics[height=0.33\textheight]{StatsThinking21_files/figure-latex/sleepHist-1} \caption{Histogramas que muestran el número (izquierda) y la proporción (derecha) de las personas que reportaron cada valor posible en la variable SleepHrsNight.}\label{fig:sleepHist}
\end{figure}
¿Qué pasa si quisiéramos saber cuántas personas reportaron dormir 5 horas o menos? Para encontrar esto, podemos calcular una \emph{distribución acumulada}. Para calcular la frecuencia acumulada para un valor j, sumamos las frecuencias de todos los valores hasta j, incluyendo también la frecuencia del valor j:
\[
frecuencia\ acumulada_j = \sum_{i=1}^{j}{frecuencia\ absoluta_i}
\]
\newpage
\begin{table}
\caption{\label{tab:unnamed-chunk-7}Distribuciones de frecuencias absolutas y acumuladas para la variable SleepHrsNight}
\centering
\begin{tabular}[t]{r|r|r}
\hline
SleepHrsNight & AbsoluteFrequency & CumulativeFrequency\\
\hline
2 & 9 & 9\\
\hline
3 & 49 & 58\\
\hline
4 & 200 & 258\\
\hline
5 & 406 & 664\\
\hline
6 & 1172 & 1836\\
\hline
7 & 1394 & 3230\\
\hline
8 & 1405 & 4635\\
\hline
9 & 271 & 4906\\
\hline
10 & 97 & 5003\\
\hline
11 & 15 & 5018\\
\hline
12 & 17 & 5035\\
\hline
\end{tabular}
\end{table}
Hagamos esto para nuestra variable de sueño, calculemos las frecuencias absolutas y acumuladas. En el panel izquierdo de la Figura \ref{fig:sleepAbsCumulRelFreq} graficamos los datos para ver cómo se ven estas representaciones; los valores de frecuencias absolutas están graficados con líneas sólidas (continuas), y las frecuencias acumuladas están graficadas con líneas punteadas. Podemos ver que las frecuencias acumuladas van \emph{incrementándose monotónicamente} -- esto es, sólo pueden ir hacia arriba o mantenerse constantes, pero nunca pueden disminuir. De nuevo, usualmente encontramos las frecuencias relativas más útiles que las absolutas; esas están graficadas en el panel derecho de la Figura \ref{fig:sleepAbsCumulRelFreq}. De manera importante, la forma de la gráfica de frecuencias relativas es exactamente la misma que la de la gráfica de frecuencias absolutas -- sólo el tamaño de los valores ha cambiado.
\begin{figure}
\includegraphics[height=0.33\textheight]{StatsThinking21_files/figure-latex/sleepAbsCumulRelFreq-1} \caption{Gráfica con los valores relativos (líneas sólidas/continuas) y relativos acumulados (líneas punteadas) de las frecuencias (izquierda) y proporciones (derecha) de los posibles valores de SleepHrsNight.}\label{fig:sleepAbsCumulRelFreq}
\end{figure}
\hypertarget{plotting-histograms}{%
\subsection{Graficar histogramas}\label{plotting-histograms}}
\begin{figure}
\includegraphics[height=0.33\textheight]{StatsThinking21_files/figure-latex/ageHist-1} \caption{Histograma de las variables de Edad (izquierda) y Altura (derecha) en NHANES.}\label{fig:ageHist}
\end{figure}
Las variables que hemos examinado arriba eran bastante simples, pudiendo tener sólo unos pocos valores posibles. Ahora veamos una variable más compleja: Edad. Primero, grafiquemos la variable \emph{Edad} para todos las personas en la base de datos de NHANES (ve el panel izquierdo de la Figura \ref{fig:ageHist}). ¿Qué ves ahí? Primero, deberías notar que el número de personas en cada grupo de edad va disminuyendo con el tiempo. Esto tiene sentido porque la población fue muestreada aleatoriamente, y pasa que los fallecimientos a lo largo del tiempo lleva a que haya menos personas en los rangos de edad más avanzada. Segundo, probablemente notes un pico grande en la gráfica en la edad de 80 años. ¿Qué piensas que sea eso?
Si buscáramos la información acerca de la base de datos NHANES, veríamos la siguiente definición para la variable \emph{Edad}: ``Edad en años del participante al momento de su inclusión en la investigación. Nota: Participantes de 80 años o más fueron registrados como 80.'' La razón para esto es que la muestra relativamente pequeña de individuos con edades muy altas podría hacer potencialmente más fácil el poder identificar a las personas específicas en la base de datos si uno conoce su edad exacta; los investigadores generalmente prometen a sus participantes el mantener su identidad de manera confidencial, y esta es una de las cosas que se pueden hacer para ayudar a proteger a los participantes. Esto subraya el hecho de que siempre es importante conocer de dónde proviene la información que tenemos y conocer cómo ha sido procesada; de otra manera podríamos interpretar los datos de manera inapropiada, pensando que las personas de 80 años de edad hayan sido sobrerrepresentadas en la muestra de alguna manera.
Veamos otra variable más compleja en la base de datos NHANES: Altura. El histograma de los valores de altura está graficada en el panel derecho de la Figura \ref{fig:ageHist}. La primera cosa que deberías notar acerca de esta distribución es que la mayoría de su densidad está centrada alrededor de 170 cm, pero su distribución tiene una ``cola'' a la izquierda; hay un número pequeño de individuos con alturas más pequeñas. ¿Qué piensas que está sucediendo ahí?
Habrás intuido que las alturas pequeñas vienen de niños y niñas en la base de datos. Una manera de examinar esto es graficando un histograma con los colores separados para niños y adultos (panel izquierdo de la Figura \ref{fig:heightHistSep}). Esto muestra que todas las alturas más bajas en efecto son de niños y niñas en la muestra. Realicemos una nueva versión de NHANES que sólo incluya adultos, y después grafiquemos el histograma sólo para ellos (panel derecho de la Figura \ref{fig:heightHistSep}). En esa gráfica la distribución se mira mucho más simétrica. Como veremos después, este es un buen ejemplo de una distribución \emph{normal} (o \emph{Gaussiana}).
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/heightHistSep-1} \caption{Histograma de las alturas en NHANES. A: Valores graficados separando niños y niñas (gris) y adultos (negro). B: Valores sólo para adultos. C: Igual que B, pero con ancho de bins = 0.1}\label{fig:heightHistSep}
\end{figure}
\hypertarget{bins-de-un-histograma}{%
\subsection{\texorpdfstring{\emph{Bins} de un histograma}{Bins de un histograma}}\label{bins-de-un-histograma}}
En nuestro ejemplo anterior con la variable de sueño, los datos fueron reportados en números enteros, y nosotros simplemente contamos el número de personas que reportaron cada valor posible. Sin embargo, si observas algunos de los valores en la variable de Altura en NHANES (como se observa en la Tabla \ref{tab:heightVals}), verás que fueron medidos en centímetros hasta la primera posición decimal.
\begin{table}
\caption{\label{tab:heightVals}Algunos valores de Altura de la base de datos NHANES.}
\centering
\begin{tabular}[t]{l}
\hline
Height\\
\hline
169.6\\
\hline
169.8\\
\hline
167.5\\
\hline
155.2\\
\hline
173.8\\
\hline
174.5\\
\hline
\end{tabular}
\end{table}
El panel C de la Figura \ref{fig:heightHistSep} muestra un histograma que cuenta la densidad de cada posible valor redondeado al primer valor decimal. El histograma se ve muy irregular, esto es por la variabilidad en los valores decimales específicos. Por ejemplo, el valor 173.2 ocurre 32 veces, mientras que el valor 173.3 ocurre sólo 15 veces. Probablemente no vamos a pensar que existe una diferencia tan grande entre la prevalencia de estas dos alturas; lo más probable es que esto se deba a variabilidad aleatoria en nuestra muestra de personas.
En general, cuando creamos un histograma de datos que son continuos o donde se tienen muchos valores posibles, crearemos \emph{bins} con los valores para que en lugar de contar y graficar la frecuencia de cada valor específico, contaremos y graficaremos la frecuencia de valores que caen dentro de rangos específicos. Esa es la razón por la cual se ve menos irregular la gráfica arriba en el Panel B de la Figura \ref{fig:heightHistSep}; en este panel establecimos el ancho de los bins en 1, lo que significa que el histograma es calculado al combinar valores dentro de los bins con un ancho de uno; por lo que los valores 1.3, 1.5, 1.6 contarían en la frecuencia de un mismo bin, el cual se extendería desde valores iguales a uno hasta valores menores a 2.
Puedes notar que una vez que el tamaño de bin ha sido seleccionado, entonces el número de bins es determinado por los datos:
\[
número\, de\, bins = \frac{rango\, de\, valores}{ancho\, de\, bin}
\]
No existe una regla rígida u objetiva para escoger el ancho de bins óptimo. Ocasionalmente será obvio (como cuando sólo existen unos pocos valores posibles), pero en muchos casos requerirá ensayo y error. Existen métodos para tratar de encontrar un tamaño de bin óptimo de manera automática, como el método Freedman-Diaconis que usaremos en algunos ejemplos más adelante.
\hypertarget{representaciones-idealizadas-de-distribuciones}{%
\section{Representaciones idealizadas de distribuciones}\label{representaciones-idealizadas-de-distribuciones}}
Las bases de datos son como copos de nieve, en que cada una es diferente, a pesar de ello existen patrones que frecuentemente se observan en diferentes tipos de datos. Esto nos permite usar representaciones idealizadas de los datos para resumirlos aún más. Tomemos las alturas de los adultos graficadas en \ref{fig:heightHistSep}, y grafiquémoslas al lado de una variable muy diferente: ritmo cardíaco (latidos por minuto), también medido en NHANES (véase la Figura \ref{fig:NormalDistPlotsWithDist}).
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/NormalDistPlotsWithDist-1} \caption{Histogramas de la altura (izquierda) y pulso (derecha) en la base de datos NHANES, con la distribución normal sobrepuesta en cada conjunto de datos.}\label{fig:NormalDistPlotsWithDist}
\end{figure}
Mientras que estas gráficas ciertamente no se ven exactamente iguales, ambas tienen la característica general de ser relativamente simétricas alrededor de un pico redondeado en el medio. De hecho, esta forma es una de las formas de distribuciones comúnmente observadas cuando recolectamos datos, a esta forma se le llama distribución \emph{normal} (o \emph{Gaussiana}). Esta distribución es definida en términos de dos valores (los cuales llamamos \emph{parámetros} de la distribución): la localización del pico central (que llamamos \emph{media}) y el ancho de la distribución (que es descrita en términos de un parámetro llamado \emph{desviación estándar}). La Figura \ref{fig:NormalDistPlotsWithDist} muestra la distribución normal apropiada graficada encima de cada uno de los histogramas. Puedes ver que aunque las curvas no se ajustan exactamente a los datos, hacen un muy buen trabajo de caracterizar la distribución -- ¡con sólo dos números!
Como veremos más tarde cuando discutamos el teorema del límite central, existe una razón matemática profunda por la cual muchas variables en el mundo exhiben la forma de una distribución normal.
\hypertarget{asimetruxeda-sesgo}{%
\subsection{Asimetría (sesgo)}\label{asimetruxeda-sesgo}}
Los ejemplos en la Figura \ref{fig:NormalDistPlotsWithDist} siguen una distribución normal relativamente bien, pero en muchos casos los datos se desviarán de una manera sistemática de la distribución normal. Una manera en la que los datos se pueden desviar es cuando son asimétricos (o sesgados), cuando una cola de la distribución es más densa que la otra. Nos referimos a esto como ``asimetría'' (o sesgo, ``skewness'' en inglés). La asimetría comúnmente sucede cuando la medida está restringida a ser no-negativa, como cuando estamos contando cosas o midiendo lapsos de tiempo (y por lo tanto la variable no puede tomar valores negativos).
Un ejemplo de asimetría relativamente moderada se puede ver en el promedio de tiempos de espera en las líneas de seguridad aeropuertaria del Aeropuerto Internacional de San Francisco, graficado en el panel izquierdo de la Figura \ref{fig:SFOWaitTimes}. Puedes observar que mientras la mayoría de los tiempos son menores a 20 minutos, hay un número de casos donde pueden ser mucho mayores, ¡sobre los 60 minutos! Este es un ejemplo de una distribución ``asimétrica a la derecha,'' donde la cola derecha es más larga que la izquierda; este tipo de asimetría es común cuando observamos conteos o tiempos medidos, que no pueden ser menores a cero. Es menos común ver distribuciones ``asimétricas a la izquierda,'' pero pueden ocurrir, por ejemplo cuando vemos valores de fracciones que no pueden tomar valores mayores a uno.
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/SFOWaitTimes-1} \caption{Ejemplos de distribuciones asimétricas a la derecha y con cola larga. Izquierda: Tiempo promedio de espera en seguridad en el SFO Terminal A (Enero-Octubre 2017), obtenidos de https://awt.cbp.gov/ . Derecha: Histograma del número de amigos en Facebook en 3,663 personas, obtenidos de la Stanford Large Network Database. La persona con el máximo número de amigos está indicada con un diamante.}\label{fig:SFOWaitTimes}
\end{figure}
\hypertarget{distribuciones-con-colas-largas}{%
\subsection{Distribuciones con colas largas}\label{distribuciones-con-colas-largas}}
Históricamente, la estadística se ha enfocado fuertemente en datos que están distribuidos de manera normal, pero existen muchos tipos de datos que no se parecen en nada a la distribución normal. En particular, muchas distribuciones en el mundo real tienen ``cola larga,'' esto significa que la cola derecha se extiende mucho más allá de los valores típicos de la distribución; esto es, son extremadamente asimétricas (o sesgadas). Uno de los tipos de datos más interesantes donde ocurren distribuciones con cola larga suceden del análisis de redes sociales (\emph{social networks}). Para un ejemplo, veamos los datos sobre la cantidad de amigos en Facebook del \href{https://snap.stanford.edu/data/egonets-Facebook.html}{Stanford Large Network Database} y grafiquemos el histograma del número de amigos en una muestra de 3,663 personas en la base de datos (ve el panel derecho de la Figura \ref{fig:SFOWaitTimes}). Como podemos ver, esta distribución tiene una cola derecha muy larga -- la persona promedio tiene 24.09 amigos, ¡mientras que la persona con la mayor cantidad de amigos (marcada por el diamante) tiene 1043!
Distribuciones con cola larga han sido cada vez más reconocidas en el mundo real. En particular, muchas características de sistemas complejos son caracterizadas por estas distribuciones, desde la frecuencia de palabras en un texto, hasta el número de vuelos que llegan y salen de diferentes aeropuertos, como la conectividad de redes neuronales. Existen diferentes maneras en que las distribuciones de cola larga pueden suceder, pero una común sucede en casos del llamado ``Efecto Mateo'' de la Biblia Cristiana:
\begin{quote}
Porque al que tiene, le será dado, y tendrá más; y al que no tiene, aun lo que tiene le será quitado. - Mateo 25:29, Reina Valera 1960.
\end{quote}
Esto frecuentemente es parafraseado como ``los ricos se enriquecen más'' (o en el refrán ``Dinero llama dinero''). En estas situaciones, las ventajas se combinan o multiplican, de tal manera que aquellos con más amigos tienen acceso aún a más amigos nuevos, y aquellos con más dinero tienen la habilidad de hacer cosas que incrementen sus riquezas aún más.
Conforme el curso avance veremos varios ejemplos de distribuciones de cola larga, y deberemos mantener en mente que muchas de las herramientas en estadística pueden fallar cuando nos enfrentamos con datos con cola larga. Como Nassim Nicholas Taleb señala en su libro ``\emph{The Black Swan},'' estas distribuciones de cola larga jugaron un papel crítico en la crisis financiera de 2008, porque muchos de los modelos financieros usados por los \emph{traders} (operadores de inversiones) asumieron que los sistemas financieros seguirían una distribución normal, que claramente no siguieron.
\hypertarget{objetivos-de-aprendizaje-2}{%
\section{Objetivos de aprendizaje}\label{objetivos-de-aprendizaje-2}}
Habiendo leído este capítulo, deberías ser capaz de:
\begin{itemize}
\tightlist
\item
Calcular distribuciones de frecuencia absolutas, relativas, y acumuladas para un conjunto de datos.
\item
Generar una representación gráfica de una distribución de frecuencias.
\item
Describir la diferencia entre una distribución normal y una distribución con cola larga, y describir las situaciones que comúnmente dan lugar a cada tipo de distribución.
\end{itemize}
\hypertarget{lecturas-sugeridas-2}{%
\section{Lecturas sugeridas}\label{lecturas-sugeridas-2}}
\begin{itemize}
\tightlist
\item
\emph{The Black Swan: The Impact of the Highly Improbable}, por Nassim Nicholas Taleb.
\end{itemize}
\hypertarget{data-visualization}{%
\chapter{Visualización de Datos}\label{data-visualization}}
El 28 de enero de 1986, el Space Shuttle Challenger explotó 73 segundos después del despegue, matando a lxs 7 astronautas a bordo. Así como cuando los desastres suceden, hubo una investigación oficial sobre lo que ocasionó el accidente. El cual encontró que un ``O-ring'' (junta tórica) que conectaba dos secciones del sólido populsor de cohete goteó, lo cual resultó en la falla de la unión y explosión del tanque propulsor (véase figura \ref{fig:srbLeak}).
\begin{figure}
\includegraphics[width=5in,height=0.2\textheight]{images/Booster_Rocket_Breach_-_GPN-2000-001425} \caption{Imagen del sólido propulsor de cohete derramando combustible, segundos antes de la explosión. La pequeña flama visible al costado del cohete es el sitio de la falla del O-ring (junta tórica). By NASA (Great Images in NASA Description) [Public domain], via Wikimedia Commons}\label{fig:srbLeak}
\end{figure}
La investigación encontró que muchos aspectos del proceso de decisión de la NASA tenían errores, y estaban focalizados en una reunión entre el personal de la NASA e ingenierxs de Morton Thiokol, un empresario que construía sólidos propulsores de cohete. Estxs ingenierxs estaban paricularmente preocupadxs por las temperaturas que habían sido pronosticadas para la mañana del lanzamiento, las cuales eran muy bajas. Ellos tenían datos de lanzamientos pasados donde el funcionamiento de los ``O-rings'' se veían afectados a temperaturas bajas. En la junta previa al lanzamiento, lxs ingenierxs presentaron sus datos a lxs directivxs de la NASA, pero fueron incapaces de convencerles el posponer el lanzamiento. Su evidencia fue una serie de notas escritas a mano mostrando números de los lanzamientos pasados.
El experto en visualización Edward Tufte ha argumentado que con la presentación adecuada de todos los datos, lxs ingenierxs pudieron haber sido mucho más persuasivos. En particular, pudieron haber mostrado una gráfica como la de la Figura \ref{fig:challengerTemps}, en la cual subraya dos hechos importantes. Primero, demuestra la cantidad del daño de ``O-ring'' (definido por la cantidad de erosión y hollín encontrado afuera de los anillos después que el sólido de propulsor de cohete fuera recuperado del océano en vuelos pasados) fue relacionado estrechamente a la temperatura del despegue. Segundo, demuestra que el rango de temperaturas pronosticadas para la mañana del 28 de enero (mostrado en el área sombreada) estaba fuera del rango de todos despegues previos. Aunque no podemos saber con certeza, se ve por lo menos posible que con eso hubieran podido ser más convincentes.
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/challengerTemps-1} \caption{Replanteo de los datos del índice de daños de Tufte. La línea muestra la tendencia en los datos y el área sombreada muestra las temperaturas proyectadas para la mañana del lanzamiento.}\label{fig:challengerTemps}
\end{figure}
\hypertarget{anatomuxeda-de-una-gruxe1fica}{%
\section{Anatomía de una gráfica}\label{anatomuxeda-de-una-gruxe1fica}}
El objetivo de graficar datos es presentar un resumen de una base de datos en una presentación bi-dimensional (o en ocasiones, tri-dimensional). Nos referimos a las dimensiones como \emph{ejes} -- el eje horizontal es llamado el \emph{eje X} y el eje vertical es llamado el \emph{eje Y}. Podemos acomodar los datos a través de los ejes que enfaticen los valores de los datos. Estos valores pueden ser continuos o categóricos.
Hay muchos tipos de gráficas que se pueden utilizar, las cuales tienen diferentes ventajas y desventajas. Digamos que estamos interesadxs en caracterizar la diferencia de altura en hombres y mujeres en la base de datos NHANES. La figura \ref{fig:plotHeight} muestra cuatro diferentes maneras de graficar esos datos.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\tightlist
\item
La gráfica de barras en el panel A muestra la diferencia en medias (\emph{means}), pero no nos muestra cuánta dispersión hay en los datos alrededor de estas medias -- y como veremos después, saber esto es esencial para determinar si consideramos que la diferencia entre los grupos es suficientemente grande como para ser importante.
\end{enumerate}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{1}
\tightlist
\item
La segunda gráfica muestra las barras con todos los puntos de datos (\emph{data points}) sobrepuestos - esto hace un poco más claro que la distribución de la altura de hombres y mujeres se empalman, pero aún es difícil ver debido a la gran cantidad de puntos de datos.
\end{enumerate}
En general preferimos usar una técnica de graficado que provea una vista más clara de la distribución de puntos de datos.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{2}
\tightlist
\item
En el panel C, podemos ver un ejemplo de \emph{gráfica violín}, en la cual se grafica la distribución de cada condición de los datos (después de suavizarla un poco).
\end{enumerate}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{3}
\tightlist
\item
Otra opción es el \emph{diagrama de caja} (\emph{box plot}) mostrado en el panel D, en el cual se muestra la mediana (línea central), una medida de variabilidad (lo ancho de la caja, que está basado en una medida llamada \emph{rango intercuartílico}), y cualquier valor atípico (observado por los puntos al final de las líneas). Ambas son formas efectivas de mostrar datos que proporcionan una buena idea de la distribución de los datos.
\end{enumerate}
\begin{figure}
\centering
\includegraphics{StatsThinking21_files/figure-latex/plotHeight-1.pdf}
\caption{\label{fig:plotHeight}Cuatro maneras diferentes de graficar la diferencia en altura entre hombres y mujeres en la base de datos NHANES. El Panel A grafica las medias de ambos grupos, lo que no permite evaluar el empalme relativo entre las dos distribuciones. El Panel B muestra las mismas barras, pero sobrepone los puntos de datos, dispersándolos un poco para que se pueda ver la distribución general. El Panel C muestra una gráfica violín, la cual muestra la distribución de los datos en cada grupo. El Panel D muestra un diagrama de caja (box plot), el cual resalta el ancho de la distribución, además de presentar los valores atípicos (\emph{outliers}, los cuales se muestran como puntos individuales).}
\end{figure}
\hypertarget{principios-de-una-buena-visibilizaciuxf3n}{%
\section{Principios de una buena visibilización}\label{principios-de-una-buena-visibilizaciuxf3n}}
Se han escrito muchos libros acerca de la visualización efectiva de los datos. Hay algunos principios en los que la mayoría de lxs autorxs están de acuerdo, mientras que otros son más polémicos. Aquí resumimos algunos de los principios fundamentales; si quieres aprender más, algunos buenos recursos están enlistados en la sección de \emph{Lecturas sugeridas} al final del capítulo.
\hypertarget{muestra-los-datos-y-haz-que-destaquen}{%
\subsection{Muestra los datos y haz que destaquen}\label{muestra-los-datos-y-haz-que-destaquen}}
Digamos que llevo a cabo un estudio en donde se examine la relación entre salud dental y el tiempo invertido en el uso de hilo dental, y quiero visualizar los datos. La Figura \ref{fig:dentalFigs} muestra cuatro posibles presentaciones de estos datos.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\tightlist
\item
En el panel A, en realidad no mostramos los datos, sólo una línea expresando la relación entre los datos. Esto claramente no es óptimo, porque en realidad no podemos ver cómo se ven los datos subyacentes.
\end{enumerate}
Los paneles B-D muestran tres posibles resultados de graficar los datos, en donde cada gráfica muestra una manera diferente en la que los datos se pudieron haber visto.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{1}
\tightlist
\item
Si vemos la gráfica en el panel B, probablemente desconfiaríamos -- raras veces datos reales siguen un patrón tan preciso.
\item
Los datos en el panel C, por el otro lado, se ven como datos reales -- muestran una tendencia general, pero son desordenados, como suelen ser los datos en el mundo real.
\item
Los datos en el panel D nos muestran que la aparente relación entre las dos variables es solamente causada por una persona, a la que nos referiremos como valor \emph{atípico} (\emph{outlier}) porque cae muy lejos del patrón del resto del grupo. Debería de ser claro que probablemente no queremos sacar muchas conclusiones de un efecto guiado por un solo punto de los datos. Esta figura resalta por qué es \emph{siempre} importante mirar los datos sin procesar (o datos crudos, \emph{raw data}) antes de confiar demasiado en cualquier resumen de los datos.
\end{enumerate}
\begin{figure}
\centering
\includegraphics{StatsThinking21_files/figure-latex/dentalFigs-1.pdf}
\caption{\label{fig:dentalFigs}Cuatro posibles presentaciones diferentes de datos para el ejemplo de salud dental. Cada punto del gráfico de dispersión representa un punto de datos en el conjunto de datos, y la línea en cada gráfico representa la tendencia lineal en los datos.}
\end{figure}
\hypertarget{maximiza-la-proporciuxf3n-datostinta-dataink-ratio}{%
\subsection{Maximiza la proporción datos/tinta (data/ink ratio)}\label{maximiza-la-proporciuxf3n-datostinta-dataink-ratio}}
Edward Tufte propuso una idea llamada \emph{proporción datos/tinta} (\emph{data/ink ratio})
\[
data/ink\ ratio = \frac{amount\, of\, ink\, used\, on\, data}{total\, amount\, of\, ink}
\]
El punto de esto es minimizar la contaminazión visual y permitir mostrar los datos. Por ejemplo, toma las dos presentaciones sobre la salud dental en la Figura \ref{fig:dataInkExample}. Ambos paneles muestran los mismos datos, pero el panel A es mucho más sencillo de comprender, porque es relativamente alta la proporción de datos/tinta.
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/dataInkExample-1} \caption{Un ejemplo de los mismos datos graficados en dos porporciones datos/tinta diferentes.}\label{fig:dataInkExample}
\end{figure}
\hypertarget{evita-gruxe1ficas-basura}{%
\subsection{Evita gráficas basura}\label{evita-gruxe1ficas-basura}}
Es especialmente común ver presentaciones de datos en medios populares que son adornados con muchos elementos visuales que son temáticamente relacionados con el contenido pero no relacionados con los datos verdaderos. Esto es conocido como \emph{gráficas basura} (\emph{chartjunk}) y debe de ser evitado a toda costa.
Una buena manera de no usar gráficas basura es tratar de evitar programas populares de hojas de cálculo para graficar nuestros datos. Por ejemplo el diagrama en la Figura \ref{fig:chartJunk} (creado en Microsoft Excel) grafica la popularidad relativa de las diferentes regiones de Estados Unidos. Hay al menos tres cosas mal con esta figura:
\begin{itemize}
\tightlist
\item
tiene gráficos superpuestos en cada una de las barras que no tienen nada que ver con los datos reales
\item
tiene una textura de fondo que distrae
\item
utiliza barras tridimensionales, que distorsionan los datos
\end{itemize}
\begin{figure}
\includegraphics[width=0.8\linewidth,height=0.5\textheight]{images/excel_chartjunk} \caption{Un ejemplo de gráfica basura.}\label{fig:chartJunk}
\end{figure}
\hypertarget{evita-distorsionar-los-datos}{%
\subsection{Evita distorsionar los datos}\label{evita-distorsionar-los-datos}}
En ocasiones es posible usar la visualización para distorsionar el mensaje de un conjunto de datos. Algo muy común es el uso de diferentes escalas de eje para exagerar u ocultar un patrón de datos. Por ejemplo, digamos que estamos interesades en ver si los índices de crímenes violentos han cambiado en Estados Unidos. En la Figura \ref{fig:crimePlotAxes}, podemos ver los datos graficados de manera que en una gráfica parece ser que el crimen ha permanecido constante, pero en la otra parece que se ha desplomado.¡Los mismos datos pueden contar dos historias muy diferentes!
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/crimePlotAxes-1} \caption{Datos de crímenes de 1990 a 2014 graficados con el tiempo. Los paneles A y B muestran los mismos datos pero con diferentes rangos de valores a lo largo del eje Y. Datos obtenidos de https://www.ucrdatatool.gov/Search/Crime/State/RunCrimeStatebyState.cfm}\label{fig:crimePlotAxes}
\end{figure}
Una de las mayores controversias en la visualización de datos estadísticos es cómo elegir el eje Y, y en particular si se debe de incluir el cero. En su famoso libro ``Cómo mentir con estadística,'' Darrell Huff argumentó fuertemente que uno siempre debería de incluir el cero en el eje Y. Por otro lado, Edward Tufte ha argumentado en contra de esto:
\begin{quote}
``En general, en una serie de tiempo, usa una línea de base que muestre los datos y no el punto cero; no gastes mucho espacio vertical vacío tratando de llegar al punto cero a costa de ocultar lo que está sucediendo en la línea de datos en sí'' (de: \url{https://qz.com/418083/its-ok-not-to-start-your-y-axis-at-zero/}).
\end{quote}
Ciertamente, hay ciertos casos en donde usar el punto cero no tiene sentido para nada. Digamos que estamos interesades en graficar la temperatura corporal de un individuo en el tiempo. En la Figura \ref{fig:bodyTempAxis} graficamos los mismos datos (simulados) con o sin cero en el eje Y. Debería de ser obvio que al graficar estos datos con cero en el eje Y (Panel A) estamos gastando mucho espacio en la figura, ¡dado que la temperatura corporal de una persona viva nunca podría llegar a cero! Al incluir el cero, tambien estamos haciendo el salto de temperatura durante 21-30 días menos evidente. En general, mi inclinación en el caso de gráficas lineales y de dispersión es el usar todo el espacio en la gráfica, a menos que el punto cero sea sumamente importante de resaltar.
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/bodyTempAxis-1} \caption{Temperatura corporal a lo largo del tiempo, graficada con o sin el punto cero en el eje Y.}\label{fig:bodyTempAxis}
\end{figure}
Edward Tufte introdujo el concepto del \emph{factor de engaño} (\emph{lie factor}) para describir el grado en el cual las diferencias físicas en la visualización corresponden a la magnitud de las diferencias en los datos. Si una gráfica tiene un factor de engaño cercano a 1, entonces es una representación apropiada de los datos, pero si el factor de engaño es lejano a uno refleja una distorsión de los datos subyacentes.
El factor de engaño apoya el argumento de que uno siempre debería de incluir el punto cero en gráfico de barras en muchos casos. En la Figura \ref{fig:barCharLieFactor} graficamos los mismos datos con y sin el cero en el eje Y. En el panel A, la diferencia proporcional del área de las dos barras es exactamente igual a la diferencia proporcional entre los valores (esto es, factor de engaño= 1), mientras que en el Panel B (donde el cero no está incluido) la diferencia proporcional en área entre las dos barras es aproximadamente 2.8 veces mayor que la diferencia proporcional de los valores, por lo tanto exagera visualmente el tamaño de la diferencia.
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/barCharLieFactor-1} \caption{Dos gráficas de barra con sus factores de engaño respectivos.}\label{fig:barCharLieFactor}
\end{figure}
\hypertarget{ajustarse-a-las-limitaciones-humanas}{%
\section{Ajustarse a las limitaciones humanas}\label{ajustarse-a-las-limitaciones-humanas}}
Les humanes tienen limitaciones perceptuales y cognitivas que pueden hacer ciertas visializaciones difíciles de entender. Siempre es importante tener esto en cuenta cuando se construye una visualización.
\hypertarget{limitaciones-perceptuales}{%
\subsection{Limitaciones perceptuales}\label{limitaciones-perceptuales}}
Una limitación perceptual importante que muchas personas (incluidas yo) sufren es daltonismo. Esto puede hacer muy difícil la percepción de la información en una figura (como la de la Figura \ref{fig:badColors}) donde hay únicamente contraste de color entre los elementos pero no contraste de brillo. Siempre es útil utilizar elementos gráficos que difieran sustancialmente en brillo y/o textura en complemento al color. Existen también \href{http://www.cookbook-r.com/Graphs/Colors_(ggplot2)/\#a-colorblind-friendly-palette}{paletas de color amigables con daltónicxs} disponibles para usarlas en muchas herramientas de visualización.
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/badColors-1} \caption{Ejemplo de una mala figura que depende únicamente en el contraste de color.}\label{fig:badColors}
\end{figure}
Incluso para personas con visión perfecta, hay algunas limitantes perceptuales que pueden hacer algunas gráficas ineficaces. Esta es una razón por la cual les estadístiques \emph{nunca} usan gráficas circulares o de pastel: Puede ser muy difícil para les humanes percibir correctamente las diferencias en el volumen de las formas. La gráfica de pastel en la Figura \ref{fig:pieChart} (presentando los mismos datos sobre afiliaciones religiosas que mostramos anteriormente) nos muestra qué tan complicado puede ser esto.
\begin{figure}
\includegraphics[width=14.11in,height=0.5\textheight]{images/religion_piechart} \caption{Un ejemplo de una gráfica de pastel (pay o sectores), enfatizando la dificultad para comprender el volumen relativo de las diferentes rebanadas de pastel.}\label{fig:pieChart}
\end{figure}
Esta gráfica es terrible por varias razones. Primero, requiere distinguir un gran número de colores de parches muy pequeños en la parte inferior de la figura. Segundo, la perspectiva visual distorsiona los números relativos, tal como la rebanada de pastel para ``Católica'' que aparece mucho más grande que la rebanada para ``Ninguna,'' cuando en realidad el número para ``Ninguna'' es ligeramente mayor (22.8 vs 20.8 porciento), como es evidente en la Figura \ref{fig:chartJunk}. Tercero, al separar la leyenda del gráfico, requiere que les lectores retengan información en su memoria de trabajo para poder mapear entre el gráfico y la leyenda y realizar muchas ``búsquedas de tablas'' para hacer coincidir continuamente las etiquetas de la leyenda con la visualización. Y, por último, utiliza texto que es demasiado pequeño, lo que hace que sea imposible leerlo sin hacer zoom.
Graficando los datos usando un enfoque más razonable (Figura \ref{fig:religionBars}), podemos ver el patrón mucho más claramente. Es posible que este gráfico no parezca tan llamativo como el gráfico circular generado con Excel, pero es una representación mucho más eficaz y precisa de los datos.
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/religionBars-1} \caption{Una presentación más clara de los datos de afiliación religiosa (obtenido de http://www.pewforum.org/religious-landscape-study/).}\label{fig:religionBars}
\end{figure}
Esta gráfica permite al espectador hacer comparaciones basadas en la longitud de las barras a lo largo de una escala común (el eje y). Los seres humanos tienden a ser más precisos al decodificar las diferencias en función de estos elementos perceptivos que en función del área o del color.
\hypertarget{corrigiendo-otros-factores}{%
\section{Corrigiendo otros factores}\label{corrigiendo-otros-factores}}
Comúnmente estamos interesades en graficar datos donde la variable de interés es afectada por otros factores aparte del que nos interesa. Por ejemplo digamos que queremos entender cómo el precio de la gasolina ha cambiado con el paso del tiempo. La figura \ref{fig:gasPrices} muestra datos históricos sobre el precio de la gasolina, graficado con o sin el ajuste de la inflación. Mientras que los datos sin ajuste muestran un gran incremento, los datos con ajuste muestran que es simplemente un reflejo de la inflación. Otros ejemplos donde se necesita ajustar los datos por otros factores incluye el tamaño de la población y datos obtenidos a través de diferentes temporadas.
\begin{figure}
\includegraphics[height=0.5\textheight]{StatsThinking21_files/figure-latex/gasPrices-1} \caption{El precio de la gasolina en Estados Unidos de 1930 a 2013 (obtenido de http://www.thepeoplehistory.com/70yearsofpricechange.html) con o sin la corrección para inflación (basado en *Consumer Price Index*).}\label{fig:gasPrices}
\end{figure}