TEOREMA CENTRAL DEL LÍMITE |
DISTRIBUCIONES MUESTRALES DE MEDIAS
Hemos dicho ya, que el objetivo de nuestro estudio es poder extender a la población lo que obtengamos de una muestra.
Imagina que de la población formada por todos los alumnos del instituto, extraes aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad, encontrando que la edad media obtenida es de 15,8 años .
Pero, ¿qué ocurriría, si extrajéramos otra muestra?. ¿Coincidirían las medias ?.¿ Y coincidirían con la media de la población?. Lo cierto es que parece lógico pensar que aunque no tengan porqué coincidir, si deberían estar bastante próximas. Pero, ¿cuánto de próximas?, ¿dependería esta proximidad del tamaño de las muestras que elegimos?.
Parece necesario, que estudiemos la variabilidad de las medias obtenidas de las muestras que repetidamente se extraigan. El siguiente resultado, responde claramente a las preguntas planteadas.
EL TEOREMA CENTRAL DEL LÍMITE (TCL)
Imagina que tienes una población con media m y desviación típica s . y que extraes aleatoriamente todas las posibles muestras, todas ellas de tamaño n. Si obtuvieras las medias de todas estas muestras, y las consideras una distribución de datos (la distribución muestral de medias), comprobarías que:
a) La media de los datos, es la media m de la población , es decir la media de las medias de las muestras, es igual que la media de la población.
b) Estas medias se distribuyen alrededor de la media de la población, con una desviación típica (llamada desviación típica de la media, ) igual a la de la población dividida por la raíz de n, es decir, la d.t. de la media es
c) La distribución de las medias muestrales, es una distribución de tipo "normal", siempre que la población de procedencia lo sea, o incluso si no lo es, siempre que el tamaño de las muestras sea 30 o mayor.
En consecuencia, "si una población tiene media m y d.t. s , y tomamos muestras de tamaño n ( de tamaño al menos 30, o cualquier tamaño, si la población es "normal"), las medias de estas muestras siguen aproximadamente la distribución
(1)
Además, cuanto mayor es el valor de n, mejor es la aproximación "normal".
Hemos
nombrado un concepto
importante:
la d.t. de la
media ,
que es el grado de
variabilidad de las
medias muestrales.
Cuanto menor sea,
más ajustadas a la
media de la
población serán
las medias que
obtengamos de una
muestra. De su
propia definición,
es fácil darse
cuenta de que cuanto
mayor es el tamaño
de la muestra, menor
es este grado de
variabilidad, y por
tanto más similar a
la media de la
población será la
media obtenida de la
muestra.
|
Observa el gráfico interactivo. La línea negra, representa la distribución de los datos de la población (que en este caso es normal N(m,s)). La morada, la de las medias muestrales, es decir (1). Puedes cambiar los valores de n, el tamaño de la muestra, y d.t., la desviación típica s de la población y observar como se comportan ambas distribuciones dependiendo de dichos valores. |
NOTAS IMPORTANTES Nuestra afirmación de que la desviación típica de la media es , se hace asumiendo que la población es infinita ( o el muestreo se realiza con reemplazamiento ). En caso contrario, se debe utilizar el "factor de corrección para poblaciones finitas", de forma que la d.t. de la media quedaría:
donde N es el tamaño de la población y n el de la muestra. En la práctica y como regla general, se usa el coeficiente anterior tan sólo cuando el tamaño de una muestra es superior al 5% de la población. Nosotros no tendremos en cuenta este factor, pues no se resta profundidad a los conceptos estudiados al tiempo que se simplifica su estudio. Además estudiaremos tan sólo el caso correspondiente a muestras de más de 30 elementos. llamadas "muestras grandes". Para muestras de menor tamaño, se han de utilizar distribuciones distintas de la Normal, y está fuera del alcance de este curso. Habremos de suponer que conocemos la desviación típica de la población (s), (aunque resulta improbable conocerla y desconocer la media), o bien al menos la desviación típica muestral (s) (también llamada cuasivarianza, que resulta ser una buena aproximación de la desviación típica de la población para muestras grandes). Este
último
parámetro
se
define
como
donde
|
En términos mas coloquiales, lo que en definitiva establece el TCL, es que la distribución de la media, o de las sumas , de diferentes valores da como resultado una distribución normal. De ahí la omnipresente aparición de distribuciones normales. Piensa en los factores biológicos y antropométricos. Por ser el resultado de diferentes combinaciones genéticas y suma de muchos diferentes factores, dan como resultados distribuciones normales. También por análogas razones muchísimos parámetros sociológicos, económicos, físicos,.. siguen distribuciones de este tipo.
EJEMPLO:
Una compañía aérea sabe que el equipaje de sus pasajeros tiene como media 25 kg. con una d.t. de 6 kg. Si uno de sus aviones transporta a 50 pasajeros, el peso medio de los equipajes de dicho grupo estará en la distribución muestral de medias
La probabilidad de que el peso medio para estos pasajeros sea superior a 26 kg sería:
Si el avión no debe cargar más de 1300 kg en sus bodegas, la media del conjunto de los 50 pasajeros no debe superar los
En consecuencia en un 11,9% de los casos los aviones de esta compañía superan el margen de seguridad.
Hemos estudiado ya el T.C.L., que nos permite conocer de que forman se distribuyen las medias de las muestras de una población.
Ahora invertiremos el caso: se selecciona una muestra de una población de la que se desconoce la media, y se calcula la media muestral. A partir de aquí haremos una inferencia sobre la media poblacional, con base en la media muestral.
Imaginemos que preguntamos a una muestra de 40 alumnos, por el recorrido en km. que tienen que hacer todos los días para llegar al instituto, y que la media de tal muestra es de 3 km. Las dos preguntas siguientes responden a las dos formas de inferencia que estudiaremos en este curso:
1º.- Si nos habían dicho que la media de distancia de todo el instituto era el año pasado de 3,8 km, ¿es significativamente diferente esta media?, o lo que es lo mismo, ¿podemos decir que la media del instituto ha cambiado este año, o por el contrario la diferencia de medias es normal y se debe al azar al elegir los elementos de la muestra?
Esta pregunta implica una decisión, que podremos tomar a través de los denominados test de contraste de hipótesis.
2º.- Tomando como base la muestra (es decir si suponemos que desconocemos la distancia media), ¿qué estimación puede hacerse sobre la media poblacional ( es decir la de todo el Instituto) ?
Esta pregunta implica una estimación, que aprenderemos a hacer ahora.