Mejora de habilidades para el pensamiento
- Libros digitales
- Conceptos
- Introducción
- Muestra
- Escalas de medición
- Estadística descriptiva univariada
- Estadística bidimensional o bivariada
- Probabilidades
- Distribuciones
- Distribución de probabilidad
- Distribuciones de variable discreta
- Distribuciones de variable continua
- Histogramas
- Función de Masa de Probabilidad
- Función de distribución acumulada
- Función de Densidad de Probabilidad
- Principales distribuciones
- Distribución para variables aleatorias continuas
- Distribución de POISSON
https://joanby.github.io/bookdown-probabilidad/
https://joanby.github.io/bookdown-estadistica-inferencial/
https://www.odiolaestadistica.com/estadistica-python/
Contenido complementario
- Valor aleatorio - Valores que cambian en un rango determinado
- Valor deterministico - Asume un valor puntual
La estadística está muy involucrada en la toma de decisiones
- Pensamiento inteligente
- Aprendizaje práctico
- Observaciones con sentido
Es un conjunto de procedimientos para reunir, medir, codificar, computar, analizar y resumir información númerica adquirida sistemáticamente.
Su fuente principal son los datos, siguiendo los procedimientos científicos. Recolectar datos tiene diferentes propositos:
- Estadística descriptiva - Datos sobre categorías, personas u objetos y resumir la información en pocas cifras, matemáticas exactas, tablas y gráficas.
- Estadística inferencial - Observaciones registradas y que tan frecuente ocurrieron en los datos de cada observación. Extraer conclusiones sobre las relaciones matemáticas, relaciones causa-efecto, prueba de hipótesis y teorias, entre las características de un grupo de personas u objetos.
Proceso que sigue una serie de pasos utilizando herramientas en situaciones de nuestra vida cotidiana.
- Rigurosa
- Organizada
- Sistemática
- Empírica
- Crítica
- Producir conocimientos
- Resolver problemas prácticos
- Organizar ideas
- Hacer predicciones
- Reunir datos
- Específicar la(s) pregunta(s)
- ¿Cuáles son las variables? (dependiente e independientes)
- ¿Cuáles son las causas y los efectos?
- ¿Qué se quiere resolver?
- ¿Por qué sucede algo?
- ¿Cuál es la influencia?
- Revisar la literatura
- Proponer una teoría y formular una hipótesis
- Indicadores, métricas y parámetros
- Seleccionar un diseño de investigación
- Tipo, nivel y diseño
- Recolectar los datos
- Ir a los hechos
- Aplicar métodos de extracción
- Utilizar herramientas
- Análizar los datos y sacar herramientas
- Difundir los resultados
- Defender tu investigación
- Aprobar o rechazar hipotesis
Todo subconjunto de la población es una muestra, está tiene qu ser
- Aleatoria - Todos los elementos deben tener la misma probabilidad de ser elegidos
- Representativa
Variable aleatoria
- Es una característica de la población
- Sigue un determinado comportamiento "Distribución"
- Discreta - valores enteros, contables, númerables, opciones finitas (Ciudades)
- Continua - númericos Valores reales (peso), altura
Ejemplo
- Nos interesa una característica, que va a ser la variable aleatoria
- Puede ser discreta o continua
- Se mide la característica en una población, pero es demasiado grande, se toma una muestra representativa de esa característica en la pobleción
- Obtenemos información de esa población
Existen cuatro escalas, organizadas de la que brinda menos información a la que brinda más información:
- Nominal: Ocurre cuando sólo podemos decir que dos valores son distintos. Usualmente son categorías o identificadores.
- Ordinal: Ocurre cuando podemos decir que un valor es mayor o menor que otro. Dicho de otra manera, podemos ordenar o establecer relaciones de orden entre los valores de la variable. Sin embargo, no podemos cuantificar la diferencia entre un valor y otro.
- Intervalo: Tienen lo que se conoce como un cero por convención, o un cero que existe porque se convino que ese valor sea cero pero NO implica ausencia de la variable. Esto hace que tenga sentido calcular la diferencia o intervalo entre dos valores distintos, pero no la razón entre valores. Por ejemplo, la fecha es una variable medida en escala de intervalo, puesto que tiene sentido calcular la diferencia entre valores, pero no tiene sentido decir, por ejemplo, que una fecha es dos veces más que otra, ya que el cero es una fecha que se estableció por convención y no se puede interpretar como ausencia.
- Razón: Utilizamos esta escala cuando la variable cuantitativa tiene un cero absoluto, o cuando el cero significa efectivamente ausencia. Esto implica que sí tiene sentido calcular razones entre valores. Por ejemplo, si medimos el número de habitantes de un país, si el valor es cero, esto implicaría ausencia de habitantes, y tiene todo el sentido del mundo decir que un país tiene el doble de habitantes que otro.
Nombre - Nominal Edad - Razón Fecha de nacimiento - Intervalo Estatura - Razón Peso - Razón Color de cabello - Nominal Lugar de nacimiento - Nominal Número de pasaporte - Nominal Estrato socioeconómico - Ordinal
Tiene como característica resumir, analizar y sacar conclusiones de un conjunto de datos
- Tabla de frecuencias
- Gráficas
- Resumenes númericos
Media o promedio
Ejercicios
Calcular la media y la mediana
Para la mediana, ordenar los datos de menor a mayor y escoger el del medio
Varianza y desviación típica: Cuán alejados están los datos de la media
La varianza es el promedio de las distancias hacia la media
La desviación típica es la raíz de la varianza
- Las tablas de frecuencias: informaición numérica sobre los datos
- Los gráficos son información visual
- Los resúmenes numéricos: media, mediana, varianza, desviación típica, etc.
Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedican diariamente a dormir. La clasificación de las respuestas ha permitido elaborar la siguiente tabla
Es una forma distinta de representar y analizar la información que se ha reunido.
- Los datos no agrupados es el conjunto de observaciones que se presentan en su forma original tal y como fueron recolectados, para obtener información directamente de ellos
- Los datos agrupados es cuando tenemos los valores o intervalos de valores (buckets) que toma la variable y la frecuencia de ocurrencia. Es una forma más compacta de ver los datos
Para calcular la media o promedio
Para calcular la mediana
La media es el valor central de los datos ordenados. Al ser un valor par 50, la mitad es 25, hay dos valores centrales. Posición 25 y 26 y hay que obtener la media de ellos. Para ello podemos usar la frecuencia absoluta acumulada
Para la moda
Con la frecuencia absoluta tenemos el valor que más se repite:
En el caso de que las clases estén representadas con intervalos, hablaremos de
Desviación típica y la varianza
Ejemplo
Se tienen los siguientes datos de peso en kg de 100 individuos
Para calcular la media
Para la mediana se encuentra en n/2
n/2=100/2=50, en este caso el intervalo de la mediana es (66,69)
Para la moda
Se llaman en general cuantiles y se pueden clasificar en tres grandes grupos
- Cuartiles (25%, 50%, 75%)
- Quintiles (20%, 40%, 60%, 80%)
- Deciles (10%, 20%, 30% ... 90%)
Dividen a una distribución ordenada en partes iguales
Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor
Son los tres valores de la variable de una distribución que la dividen en cuatro partes iguales
Para calcularlos se debe seguir lo siguiente:
- Se ordenan los datos, entonces el primer valor será el mínimo y el último el máximo
- Se determina la posición que ocupa cada cuartil, se puede usar la fórmula:
- Q1 es el que deja por debajo un 25%
- Q2 es el que deja por debajo un 50%, coincide con la mediana
- Q3 es el que deja por debajo un 75%
Ejemplo
Corresponden a los 9 valores que dividen a los datos en 10 partes iguales, es decir, 10%, 20% .... 90%
Son los noventa y nueve valores de la variable que la dividen en cien partes, se designan por P1, P2 ... P99
P50 coincide con la mediana
El percentil p(pp) es un valor de la variable tal que el p% de la muestra está por debajo
Se calcula de la siguiente manera
- Sí es decimal se aproxima al entero más cercano superior
- Buscamos este valor en la columna de la frecuencia acumulada
- El primer valor de x cuya frecuencia acumulada sobrepasa el resultado de este cálculo es el percentil buscado
- También se puede hacer con frecuencias relativas acumuladas
Ejemplo
Para este caaso entre las notas 3 y 7 hay un 50%. El intervalo estaría centrado en la evaluación 5 que es la mediana
Son una representación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y la simetría
- Se representan los 3 cuartiles, Q1, Q2 (mediana) y Q3
- Podemos encontrar datos mucho más grandes o mucho más pequeños que el resto de los datos. Esos valores son llamados atípicos o outliers
- Se representan con un punto y pueden estar en cualquiera de los dos extremos del diagrama
Regla para encontrar valores atipicos:
- Mayor que Q3 por al menos 1.5 veces el rango intercuartilico (RI)
- Menor que Q1 por al menos 1.5 veces el rango intercuartilico (RI)
A estos dos límites a partir de los cuales vamos a decir que un datos es atípico, les llamaremos barreras
Viendo otro ejemplo:
Se dice así cuando la media, mediana y la moda no coinciden, por ende son asimetricas
La Simetría se da cuando hay aproximadamente la misma cantidad de los datos a ambos lados de la media aritmética. La media aritmética, la mediana y la moda son iguales
Ejercicio 1
Ejercicio 2
Identificando los cuartiles
Es una variable en la que cada individuo está definida por un par de características (x,y)
Estás dos son a su vez variables aleatorias en las que existe relación entre ellas, una de las dos es la variable independiente y la otra la variable dependiente
Es una tabla de fecuencias conjuntas donde se ponen en las columnas los valores de una de las variables, y en las filas los valores de la otra variabl. Puede ser con frecuencias absolutas y también con frecuencias relativas
Con frecuencias absolutas
¿Cuál es el número de estudiantes mujeres del Dpto que están haciendo un doctorado PhD?
Con frecuencias relativas (Porcentajes)
¿Cuál es el procentaje de estudiantes hombres que están haciendo un master?
Dividiendo por el total de la fila
Del total de chicas ¿Cuántas de ellas están haciendo un master? Del total de chicos ¿Cuántos están haciendo un master?
x e y están relacionadas estadísticamente cuando conocida una de ellas se puede estimar aproximadamente el valor de la otra
- Ingresos y gastos de una familia
- Producción y ventas de una fábrica
- Gastos en publicidad y beneficios de una empresa
- Altura y peso
- Notas de un examen y nivel de estrés
Son aquellas en las que a cada individuo le corresponden los valores de dos variables, las representamos por el par (x,y)
Si representamos cada par de valores como las coordenadas de un punto, el conjunto de todos los individuos representados de esta forma se llama nube de puntos y el gráfico se llama diagrama de dispersión
Si las variables tienen una tendencia lineal positiva (una crece cuando la otra decrece) o negativa una decrece cuando la otra crece, entonce sobre la nube de puntos puede trazarse una recta que se ajusta a ellos lo mejor posible, llamada recta de regresión
Supongamos que las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:
Se muestra una tendencia líneal positiva
La covarianza de una variable bidimensional (x,y) es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas
Si hablamos de covarianza como parámetro muestral se denota como
En cambio si es como parámetro poblacional se denota comoInfica el sentido de la relación
Su valor depende de la escala elegida por los ejes
Para evitar los problemas de escala y unidades de medida de las dos variables en cuestión, se utilizo una medida llamada correlación que trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional sin depender de su escala
Si los cambios en una de las variables influyen en los cambios de la otra, diremos que las variables están correlacionadas o que hay correlación entre ellas
Para datos no agrupados
Es la media aritméticad de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas
Ejemplo: las notas de 12 alumnos de la clase de Matemáticas y Física son las siguientes:
Para datos agrupados
Trata de establecer la relación o dependencia lineal que existe entre las dos variables que intervienen: x e y
Sucede cuándo no hay dependencia entre las variables. La nube de puntos tiene una forma redondeada
Puede que no haya una dependencia lineal entre las variables pero si exista otro tipo de dependencia, como cuadrática exponencial, etc. Es decir, que la correlación sea nula no necesaria mente implica independencia entre las dos variables
En caso de que haya correlación líneal. El grado de correlación indica la proximidad que hay entre los puntos y lo que seria la recta de regresión que representa la tendencia
Para datos no agrupados
Para datos agrupados
La recta de regresión es la que mejor se ajusta a la nube de puntos
Para el ejemplo de los alumnos de matemáticas
Una medida de cuán bueno es el modelo de regresión es el siguiente:
Explicación coeficiente de variación
Un suceso cuyo resultado es incierto, no lo sabemos a priori
- Lanzamiento de una moneda
- El caudal de un fluido que cicula por una tubería
- El tiempo de atención al cliente de una sucursal bancaria
- El número de articulos defectuosos de un lote de materia prima
Ejemplo del dado
Tiramos un dado equilibrado
Usamos la intuición
- Es menos probable que salga un 1 a que salga un número mayor que 1
- Es igual de probable que salga un 4 a que salga un 6
- Es improbable que salga un 7
- La probabilidad de que salga un número positivo es máxima
La probabilidad de un suceso es una medida de la confianza que tenemos a priori en que el suceso ocurra cuando se realice el experimento aleatorio A mayor probabilidad de un suceso, más probabilidad de que ocurra
Considera un experimento en el que los sucesos elementales son equiprobables. Si el suceso A tiene n(A) elementos entonces se define la probabilidad de A como:
Si repitieramos el experimento muchas veces, la frecuencia relativa con que ocurriria el suceso A convergería a su probabilidad
Depende de la información de la que dispongamos
Se clasifica un grupo de 100 ejecutivos según su peso y al hecho de si sufren o no hipertensión:
Experimento aleatorio: se selecciona de forma equiprobable a uno de los 100 ejecutivos y se observa su clasificación de tensión y peso
Intuitivamente: el saber si uno de ellos ha ocurrido no nos da ninguna información sobre si el otro ha ocurrido
Dos sucesos A y B son Independientes sí:
Se lanza un dado equilibrado
- Suceso A: Sale un resultado par
- Suceso B: Sale un resultado mayor que 2
Nos dicen que al tirar un dado ocurrió B. Sabiendo esto, ¿CUál es la probabilidad condicionada de que el resultado haya sido par?
Los sucesos A y B son independientes
Se dispone de un test clínico para una enfermedad rara que afecta a una de cada 10000 personas
El test da positivo (detecta la enfermedad) en 99 de cada 100 personas que la padecen y da negativo (no la detecta) en 97 de cada 100 personas que no la padecen
Se aplica el test a una persona elegida al azar y da positivo ¿Cuál es la probabilidad de que padezca la enfermedad?
Probabilidades Hoja de Probabilidades Soluciones hoja de probabilidades
Las variables aleatorias han llegado a desempeñar un papel importante en casi todos los campos de estudio: en la Física, la Química y la Ingeniería; y especialmente en las ciencias biológicas y sociales. Estas variables aleatorias son medidas y analizadas en términos de sus propiedades estadísticas y probabilísticas, de las cuales una característica subyacente es su función de distribución. A pesar de que el número potencial de distribuciones puede ser muy grande, en la práctica, un número relativamente pequeño se utilizan; ya sea porque tienen características matemáticas que las hace fáciles de usar o porque se asemejan bastante bien a una porción de la realidad, o por ambas razones combinadas.
Las distribuciones de probabilidad teóricas son útiles en la inferencia estadística porque sus propiedades y características son conocidas. Si la distribución real de un conjunto de datos dado es razonablemente cercana a la de una distribución de probabilidad teórica, muchos de los cálculos se pueden realizar en los datos reales utilizando hipótesis extraídas de la distribución teórica.
En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra.
La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los sucesos es el rango de valores de la variable aleatoria. También puede decirse que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, una distribución de probabilidades puede comprenderse como una frecuencia teórica, ya que describe cómo se espera que varíen los resultados.
La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada x real es la probabilidad de que la variable aleatoria sea menor o igual que x.
Se denomina distribución de variable discreta a aquella cuya función de probabilidad solo toma valores positivos en un conjunto de valores de X finito o infinito numerable. A dicha función se le llama función de masa de probabilidad. En este caso la distribución de probabilidad es la suma de la función de masa, por lo que tenemos entonces que:
Se denomina variable continua a aquella que puede tomar cualquiera de los infinitos valores existentes dentro de un intervalo. En el caso de variable continua la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:
Una de las mejores maneras de describir una variable es representar los valores que aparecen en el conjunto de datos y el número de veces que aparece cada valor. La representación más común de una distribución es un histograma, que es un gráfico que muestra la frecuencia de cada valor.
Otra forma de representar a las distribuciones discretas es utilizando su Función de Masa de Probabilidad o FMP, la cual relaciona cada valor con su probabilidad en lugar de su frecuencia. Esta función es normalizada de forma tal que el valor total de probabilidad sea 1.
La ventaja que nos ofrece utilizar la FMP es que podemos comparar dos distribuciones sin necesidad de ser confundidos por las diferencias en el tamaño de las muestras. También debemos tener en cuenta que FMP funciona bien si el número de valores es pequeño; pero a medida que el número de valores aumenta, la probabilidad asociada a cada valor se hace cada vez más pequeña y el efecto del ruido aleatorio aumenta. Veamos un ejemplo con Python.
Si queremos evitar los problemas que se generan con FMP cuando el número de valores es muy grande, podemos recurrir a utilizar la Función de Distribución Acumulada o FDA, para representar a nuestras distribuciones, tanto discretas como continuas.
Esta función relaciona los valores con su correspondiente percentil; es decir que va a describir la probabilidad de que una variable aleatoria X sujeta a cierta ley de distribución de probabilidad se sitúe en la zona de valores menores o iguales a x.
Por último, el equivalente a la FMP para distribuciones continuas es la Función de Densidad de Probabilidad o FDP. Esta función es la derivada de la Función de Distribución Acumulada.
https://blog.adrianistan.eu/estadistica-python-distribucion-binomial-normal-poisson-parte-vi
Con que probabilidad toma esos valores la distribución
https://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad
Para una variable aleatoria discreta X, definimos la función de probabilidad como la que le asocia a cada valor de la viable una probabilidad
La función de distribución le asigna a cada valor de la variable la probabilidad de que la variable sea menor o igual que ese valor, es decir, acumula todas las probabilidades de los valores anteriores hacia el
Cuáando hablamos de función de probabilidad estamos caracterizando a la población
Podemos definir media y varianza poblacionales en el concepto de esperanza matemática o valor esperado de la variable aleatoria: E(x)
El método para describir la distribución de las v.a discretas es inadecuada para describir una v.a. continua, no se puede asociar a cada valor de la v.a su probabilidad
La función de densidad describe la distribución de probabilidad de una variable aleatoria continua
No hay harea de t a t por lo tanto es 0
Definimos como función de distribución a la que a cada valor de la variable aleatoria le asocia la probabilidad de que la variable sea menor o igual a él:
Un ensayo de Bernouilli se define como un experimento donde puede darse un éxito o fracaso y donde cada ensayo es independiente del anterior. Por ejemplo, un ensayo de Bernoulli de parámetro 0.5 sería lanzar una moneda a cara o cruz (mitad de posibilidades de cara, mitad de posibilidades de cruz).
Si repetimos N veces los ensayos de Bernouilli tenemos una distribución binomial.
Supongamos que estamos en una fabrica de bombillas. Tomamos una muestra de 10 bombillas y nos interesa saber si son defectuosas o no
Definir una variable aleatoria
X: Número de bombillas defectuosas dentro del lote de 10 unidades
¿Cuál es la distribución de X?
Denotemos p la probabilidad de que una bombilla sea defectuoosa y como n el tamaño de la muestra que tenemos
y es una variable aleatoria que vale 1, cuando la bombilla es defectuosa y vale 0 cuando no es defectuosa
Entonces la variable aleatoria Y tiene una distribución que se denomina Bernoulli. Notación y~Bernoulli(p)
La función de probabilidad de Y es de la forma:
La suma debe de ser 1
La media y la varianza de Y son:
El número de bombillas defectuosas entre 10 va a ser la siguiente v.a
La distribución de X se llama Binomial, Notación X~Binomial(n,p)
Si tenemos n = 10 bombillas y sabemos que la probabilidad de que alguna de ellas sea defectuosa es p = 0.1
¿Cuál es la probabilidad de encontrarnos con 4 bombillas defectuosas dentro del lote de 10 bombillas?
¿Cuál es el número esperado de bombillas defectuosas dentro del lote de 10 bombillas?
La distribución de Poisson recoge sucesos independientes que ocurren en un soporte continuo.El número medio de sucesos por unidad de soporte se le conoce como λ y caracteriza la distribución. poisson nos permite crear distribuciones de este tipo.
Concretamente, se especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy pequeñas, o sucesos «raros».
- En una variable aleatoria de tipo discreto
- Nos permite calcular las probabilidades de sucesos independienes que aparecen de manera estable en un intervalo de tiempo, sabiendo el promedio
Algunos ejemplos de distribuciones de Poisson: número de clientes que llegan cada hora a cierto puesto de servicio, número de averías diarias de un sistema informático, número de vehículos que pasan diariamente por un túnel, número de defectos por kilómetro de cable, ...
x~Poisson(lambda)
El rango de valores que toma la variable es: rx = {0,1,2,...}
La función de probabilidad es:
Sabiendo que el número promedio de clientes que llegan en una hora a un banco es 10 ¿Cuál sería la probabilidad de que llegaran 15 clientes en una hora?
¿Y la probabilidad de que lleguen 15 en dos horas?
¿Y la probabilidad de que lleguen menos de dos personas en una hora?