TCL y distr. muestral de medias

TEOREMA CENTRAL DEL LÍMITE

DISTRIBUCIONES MUESTRALES DE MEDIAS

Hemos dicho ya, que el objetivo de nuestro estudio es poder extender a la población lo que obtengamos de una muestra.

Imagina que de la población formada por todos los alumnos del instituto, extraes aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad, encontrando que la edad media obtenida es de 15,8 años .

Pero, ¿qué ocurriría, si extrajéramos otra muestra?. ¿Coincidirían las medias ?.¿ Y coincidirían con la media de la población?. Lo cierto es que parece lógico pensar que aunque no tengan porqué coincidir, si deberían estar bastante próximas. Pero, ¿cuánto de próximas?, ¿dependería esta proximidad del tamaño de las muestras que elegimos?.

Parece necesario, que estudiemos la variabilidad de las medias obtenidas de las muestras que repetidamente se extraigan. El siguiente resultado, responde claramente a las preguntas planteadas.

EL TEOREMA CENTRAL DEL LÍMITE (TCL)

Imagina que tienes una población con media m y desviación típica s . y que extraes aleatoriamente todas las posibles muestras, todas ellas de tamaño n. Si obtuvieras las medias de todas estas muestras, y las consideras una distribución de datos (la distribución muestral de medias), comprobarías que:

a) La media de los datos, es la media m de la población , es decir la media de las medias de las muestras, es igual que la media de la población.

b) Estas medias se distribuyen alrededor de la media de la población, con una desviación típica (llamada desviación típica de la media, ) igual a la de la población dividida por la raíz de n, es decir, la d.t. de la media es

c) La distribución de las medias muestrales, es una distribución de tipo "normal", siempre que la población de procedencia lo sea, o incluso si no lo es, siempre que el tamaño de las muestras sea 30 o mayor.

En consecuencia, "si una población tiene media m y d.t. s , y tomamos muestras de tamaño n ( de tamaño al menos 30, o cualquier tamaño, si la población es "normal"), las medias de estas muestras siguen aproximadamente la distribución

(1)

Además, cuanto mayor es el valor de n, mejor es la aproximación "normal".

Hemos nombrado un concepto importante: la d.t. de la media , que es el grado de variabilidad de las medias muestrales. Cuanto menor sea, más ajustadas a la media de la población serán las medias que obtengamos de una muestra. De su propia definición, es fácil darse cuenta de que cuanto mayor es el tamaño de la muestra, menor es este grado de variabilidad, y por tanto más similar a la media de la población será la media obtenida de la muestra.

Observa el gráfico interactivo. La línea negra, representa la distribución de los datos de la población (que en este caso es normal N(m,s)). La morada, la de las medias muestrales, es decir (1). Puedes cambiar los valores de n, el tamaño de la muestra, y d.t., la desviación típica s de la población y observar como se comportan ambas distribuciones dependiendo de dichos valores.

NOTAS IMPORTANTES

Nuestra afirmación de que la desviación típica de la media es

, se hace asumiendo que la población es infinita ( o el muestreo se realiza con reemplazamiento ). En caso contrario, se debe utilizar el "factor de corrección para poblaciones finitas", de forma que la d.t. de la media quedaría:

donde N es el tamaño de la población y n el de la muestra.

En la práctica y como regla general, se usa el coeficiente anterior tan sólo cuando el tamaño de una muestra es superior al 5% de la población. Nosotros no tendremos en cuenta este factor, pues no se resta profundidad a los conceptos estudiados al tiempo que se simplifica su estudio.

Además estudiaremos tan sólo el caso correspondiente a muestras de más de 30 elementos. llamadas "muestras grandes". Para muestras de menor tamaño, se han de utilizar distribuciones distintas de la Normal, y está fuera del alcance de este curso.

Habremos de suponer que conocemos la desviación típica de la población (s), (aunque resulta improbable conocerla y desconocer la media), o bien al menos la desviación típica muestral (s) (también llamada cuasivarianza, que resulta ser una buena aproximación de la desviación típica de la población para muestras grandes).

Este último parámetro se define como

donde es la media de la muestra. Es decir es la desviación típica de la muestra corregida dividiendo por n-1 en lugar de por n . Al hacer esto, el valor de s aumentará. Se trata pues de hacer una sobreestimación de la desviación típica, para compensar el error cometido al tomar una muestra. En las calculadoras que utilizamos se obtiene pulsando .

En términos mas coloquiales, lo que en definitiva establece el TCL, es que la distribución de la media, o de las sumas , de diferentes valores da como resultado una distribución normal. De ahí la omnipresente aparición de distribuciones normales. Piensa en los factores biológicos y antropométricos. Por ser el resultado de diferentes combinaciones genéticas y suma de muchos diferentes factores, dan como resultados distribuciones normales. También por análogas razones muchísimos parámetros sociológicos, económicos, físicos,.. siguen distribuciones de este tipo.

EJEMPLO:

Una compañía aérea sabe que el equipaje de sus pasajeros tiene como media 25 kg. con una d.t. de 6 kg. Si uno de sus aviones transporta a 50 pasajeros, el peso medio de los equipajes de dicho grupo estará en la distribución muestral de medias

La probabilidad de que el peso medio para estos pasajeros sea superior a 26 kg sería:

Si el avión no debe cargar más de 1300 kg en sus bodegas, la media del conjunto de los 50 pasajeros no debe superar los

En consecuencia en un 11,9% de los casos los aviones de esta compañía superan el margen de seguridad.

ACTIVIDADES

1.-Sabemos que el tiempo medio de espera en las colas del Banco "El interés interesado" es de 15 min. con una desviación típica de 5 minutos. Si tomasemos al azar a un grupo de 35 clientes:

a) ¿Cuál es la probabilidad de que el tiempo medio de espera del grupo fuera menor de 17 minutos?

b) ¿Cuál es la probabilidad de que estuviera entre 12 y 16 minutos?

c) ¿Entre qué valores se encontraría el tiempo medio con una seguridad del 95%?. ¿Y del 99%?.

2.-En un almacén se trabaja con bultos de igual volúmen, cuyo peso se distribuye según N(250,45) expresados en kg. Los elevadores encargados de su transporte dentro del almacén, pueden aguantar hasta un peso máximo total de 2000 kg. Si la empresa decide que las carretillas se carguen con 7 bultos cada vez:

a) ¿Cuál es la probabilidad de que se supere el peso máximo de seguridad?

b) ¿Cuántos bultos de cada vez harían falta para que dicha probabilidad fuera menor del 0,1%?

3.-En unos grandes almacenes, la media de los salarios es de 105.000 pts, con una d.t. de 25.000 pts. Si preguntaramos a 35 empleados elegidos aleatoriamente, por su sueldo, ¿Cuál es la probabilidad de que la media correspondiente a los 35 fuera inferior a 100.000 pts?

4.- En unas negociaciones sindicales correpondientes al sector turístico, la patronal alega que en un establecimiento tipo de 40 empleados, en el 90% de los casos la suma de los sueldos mensuales pagados superan los 5.000.000 de pts. Los sindicatos disponen de cifras oficiales según las cuales, en el sector la media de sueldos es de 120.000 pts con una d.t. de 10.000 pts. ¿Pueden rebatir "estadísticamente" lo alegado por la patronal? Los sindicatos te piden redactar un informe ilustrado con cifras que les permita contestar a la patronal.

Hemos estudiado ya el T.C.L., que nos permite conocer de que forman se distribuyen las medias de las muestras de una población.

Ahora invertiremos el caso: se selecciona una muestra de una población de la que se desconoce la media, y se calcula la media muestral. A partir de aquí haremos una inferencia sobre la media poblacional, con base en la media muestral.

Imaginemos que preguntamos a una muestra de 40 alumnos, por el recorrido en km. que tienen que hacer todos los días para llegar al instituto, y que la media de tal muestra es de 3 km. Las dos preguntas siguientes responden a las dos formas de inferencia que estudiaremos en este curso:

1º.- Si nos habían dicho que la media de distancia de todo el instituto era el año pasado de 3,8 km, ¿es significativamente diferente esta media?, o lo que es lo mismo, ¿podemos decir que la media del instituto ha cambiado este año, o por el contrario la diferencia de medias es normal y se debe al azar al elegir los elementos de la muestra?

Esta pregunta implica una decisión, que podremos tomar a través de los denominados test de contraste de hipótesis.

2º.- Tomando como base la muestra (es decir si suponemos que desconocemos la distancia media), ¿qué estimación puede hacerse sobre la media poblacional ( es decir la de todo el Instituto) ?

Esta pregunta implica una estimación, que aprenderemos a hacer ahora.