Distribución normal

Los datos se pueden “distribuir” (distribuir) de diferentes maneras.

Se puede extender
más a la izquierda

O más a la derecha
data skewed left data skewed right
O se puede mezclar todo
data random

Pero hay muchos casos en los que los datos tienden a estar alrededor de un valor central sin sesgo hacia la izquierda o hacia la derecha, y se acerca a una “Distribución normal” como esta:

 

bell curve

Una distribución normal

La “curva de campana” es una distribución normal.
Y el histograma amarillo muestra
algunos datos que
lo sigue de cerca
pero no perfectamente (lo cual es habitual).

bell A menudo se le llama “curva de campana”
porque parece una campana

Muchas cosas siguen de cerca una Distribución Normal:

  • alturas de personas
  • tamaño de las cosas producidas por máquinas
  • errores en las mediciones
  • presión arterial
  • marcas en una prueba

Decimos que los datos están “distribuidos normalmente”:

normal distribution with mean median mode at center

La Distribución normal tiene:

  • media = mediana = modo
  • simetría sobre el centro
  • 50% de valores inferiores a la media
    y 50% mayor que la media

Quincunx

¡Puedes ver una distribución normal creada por azar!

 

Se llama Quincunx y es una máquina increíble.

¡Juega con eso!

quincunx

Desviaciones estándar

La Desviación estándar es una medida de la extensión
nuestros números son (lea esa página para obtener detalles sobre cómo calcularla).

Cuando calculamos la desviación estándar encontramos que generalmente :

normal distrubution 68%, 95%, 99.7%

68% de los valores están dentro de
  1 desviación estándar de la media

95% de los valores están dentro de
2 desviaciones estándar de la media

 

99.7% de los valores están dentro de
3 desviaciones estándar
de la media

 

 

Ejemplo: el 95% de los estudiantes en la escuela tienen entre 1.1m y 1.7m de altura.

Suponiendo que estos datos estén normalmente distribuidos , ¿puede calcular la media y la desviación estándar?

La media está a medio camino entre 1,1 my 1,7 m:

Media = (1.1m + 1.7m) / 2 = 1.4m

 

95% son 2 desviaciones estándar a cada lado de la media (un total de 4 desviaciones estándar), entonces:

 

 

1 desviación estándar = (1,7 m-1,1 m) / 4
= 0,6 m / 4
= 0,15 m

 

Y este es el resultado:
normal distribution 95%

 

 

Es bueno saber la desviación estándar, porque podemos decir que cualquier valor es:

 

  • es probable que esté dentro de 1 desviación estándar (68 de 100 deberían estarlo)
  • muy probable estar dentro de 2 desviaciones estándar (95 de cada 100 deberían estar)
  • casi con certeza dentro de 3 desviaciones estándar (997 de 1000 deberían ser)

 

Puntajes estándar

 

El número de desviaciones estándar de la media también se denomina “Puntaje estándar”, “sigma” o “puntaje z”. ¡Acostúmbrate a esas palabras!

 

 

Ejemplo: en esa misma escuela uno de tus amigos tiene 1,85 m de altura

 

  normal distribution 95%

Puede ver en la curva de campana que 1.85m es 3 desviaciones estándar de la media de 1.4, entonces:

La ​​altura de tu amigo tiene un “puntaje z” de 3,0

También es posible calcular cuántas desviaciones estándar es 1.85 de la media

¿A qué distancia está 1.85 de la media?

Es 1.85 – 1.4 = 0.45m de la media

¿Cuántas desviaciones estándar es esa? La desviación estándar es 0.15m, entonces:

0.45m / 0.15m = 3 desviaciones estándar

 

 

Entonces, para convertir un valor en un Puntaje estándar (“puntaje z”):

 

  • primero resta la media,
  • luego dividir por la desviación estándar
  •  

 

Y hacer eso se llama “Estandarización”:

 

standardizing

 

Podemos tomar cualquier distribución normal y convertirla a la distribución normal estándar.

 

Ejemplo: tiempo de viaje

Una encuesta sobre el tiempo de viaje diario tuvo estos resultados (en minutos):

26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34

La media es 38.8 minutos , y la desviación estándar es 11.4 minutos (puede copiar y pegar los valores en Calculadora de desviación estándar si lo desea )

Convierta los valores en puntajes z (“puntajes estándar”).

Para convertir 26 :

primero resta la media: 26 – 38.8 = −12.8,
luego divida por la Desviación Estándar: −12.8 / 11.4 = −1.12

Entonces 26 es −1.12 Desviaciones estándar de la media

Aquí están las tres primeras conversiones

 

Valor original Cálculo Puntuación estándar
(puntuación z)
26 (26-38.8) / 11.4 = −1.12
33 (33-38.8) / 11.4 = −0,51
65 (65-38.8) / 11.4 = +2,30

Y aquí están gráficamente:

standard normal distribution scores

¡Puedes calcular el resto de las puntuaciones z tú mismo!

 

 

 

La fórmula de puntaje z que hemos estado usando es:

 

z = x – μ σ

 

 

  • z es el “puntaje z” (puntaje estándar)
  • x es el valor a estandarizar
  • μ (‘mu “) es la media
  • σ (“sigma”) es la desviación estándar
  •  

 

Y así es como se usa:

 

Ejemplo: tiempo de viaje (continuación)

Aquí están las tres primeras conversiones utilizando la “fórmula de puntuación z”:

z = x – μ σ

  • μ = 38,8
  • σ = 11,4

 

x x – μ σ z
(puntuación z)
26 26 – 38.8 11.4 = −1.12
33 33 – 38.8 11.4 = −0,51
65 65 – 38.8 11.4 = +2,30

Los cálculos exactos que hicimos antes, solo siguiendo la fórmula.

 

 

¿Por qué estandarizar …?

 

Puede ayudarnos a tomar decisiones sobre nuestros datos.

 

Ejemplo: el profesor Willoughby está marcando una prueba.

Aquí están los resultados del estudiante (de 60 puntos):

20, 15, 26, 32, 18, 28, 35, 14, 26, 22, 17

 

La mayoría de los estudiantes ni siquiera obtuvieron 30 de 60, y la mayoría fallará .

La prueba debe haber sido realmente difícil, por lo que el profesor decide estandarizar todos los puntajes y solo falla a las personas 1 desviación estándar por debajo de la media.

La Media es 23 , y la desviación estándar es 6.6 , y estos son los puntajes estándar:

-0,45, -1,21 , 0,45, 1,36, -0,76, 0,76, 1,82, -1,36 , 0,45, -0,15, -0,91

Ahora solo 2 estudiantes fallarán (los que tienen una desviación estándar menor que -1)

¡Mucho más justo!

 

 

También facilita la vida porque solo necesitamos una tabla (la Tabla de distribución normal estándar ), en lugar de hacer cálculos individualmente para cada valor de media y desviación estándar.

 

Más detalladamente

 

Aquí está la distribución normal estándar con porcentajes por cada mitad de una desviación estándar , y porcentajes acumulativos:

 

normal distrubution large bell curve

 

Ejemplo: Su puntaje en una prueba reciente fue 0.5 desviaciones estándar por encima del promedio, ¿cuántas personas obtuvieron menos que usted?

  • Entre 0 y 0,5 es 19,1%
  • Menos de 0 es 50% (mitad izquierda de la curva)

Entonces, el total menor que usted es:

50% + 19,1% = 69,1%

 

En teoría 69.1% obtuvo menos que usted (pero con datos reales el porcentaje puede ser diferente)

 

 

measuring 1kg

 

Un ejemplo práctico: su empresa empaca azúcar en bolsas de 1 kg.

 

Cuando pesas una muestra de bolsas obtienes estos resultados:

 

  • 1007g, 1032g, 1002g, 983g, 1004g, … (cien mediciones)
  • Media = 1010 g
  • Desviación estándar = 20 g
  •  

 

Algunos valores son inferiores a 1000 g … ¿puedes arreglar eso?

 

La distribución normal de sus mediciones se ve así:

 

normal distribution ex1

 

31% de las bolsas son menos de 1000 g,
que esta engañando al cliente!

 

Es algo aleatorio, por lo que no podemos detener bolsas que tienen menos de 1000 g, pero podemos intentar reducirlo mucho.

 

Vamos a ajustar la máquina para que 1000 g sea:

 

  • a −3 desviaciones estándar:
  • De la curva de campana grande arriba vemos que 0.1% son ​​menos. Pero tal vez eso es demasiado pequeño.
  • a −2.5 desviaciones estándar:
  • Por debajo de 3 es 0.1% y entre 3 y 2.5 desviaciones estándar es 0.5%, juntas eso es 0.1% + 0.5% = 0.6% (una buena opción, creo)

     

 

Entonces, ajustemos la máquina para que tenga 1000g a −2.5 desviaciones estándar de la media.

 

Ahora, podemos ajustarlo a:

 

  • aumenta la cantidad de azúcar en cada bolsa (que cambia la media), o
  • hacerlo más preciso (lo que reduce la desviación estándar)
  •  

 

Probemos ambos.

 

Ajuste la cantidad media en cada bolsa

 

normal distribution ex2

 

La desviación estándar es de 20 g, y necesitamos 2.5 de ellos:

 

2,5 × 20 g = 50 g

 

Entonces la máquina debería promediar 1050g , así:

 

 

Ajuste la precisión de la máquina

 

normal distribution ex3

 

O podemos mantener la misma media (de 1010 g), pero luego necesitamos 2.5 estándar
desviaciones para ser igual a 10 g:

 

10 g / 2,5 = 4 g

 

Entonces la desviación estándar debería ser 4g , así:

 

(¡Esperamos que la máquina sea tan precisa!)

 

O tal vez podríamos tener una combinación de mejor precisión y un tamaño promedio ligeramente mayor, ¡lo dejaré a usted!

 

Valores más precisos …

 

Utilice la Tabla de distribución normal estándar cuando desee valores más precisos.