25.12.06

A la moda de medias medianas: Estadística para Dummys 3

En capítulos anteriores:
Estadistica para Dummys 1
Estadistica para Dummys 2

Bueno, ya sabemos muchas de las cosas que son importantes a la hora de plantearse un estudio estadistico. Ahora pongámosnos manos a la masa: hagamos estadistica propiamente dicha. Y vamos a empezar con una cosa sencillita, algo que seguro que ya conéis.

Bueno, deciamos que teniamos una poblacion de la que queremos saber algo. Como no podemos medir toda la poblacion, pues nos quedamos con una muestra de esa poblacion, lo que viene a ser lo mismo que ir a la feria de los pueblos para conocer los pueblos de tu región (en vez de desplazarte a Villaboyuyos del Condado para ver de que color tienen los ojos sus habitantes, te fias de los que tienes en el puesto que han montado en la feria).

Tenemos un monton de datos, como una nube, que hacen todo muy caotico. Necesitamos saber algo de esos datos, de alguna forma buscarse una manera sencillita de caracterizarlos y definirlos. Por ejemplo, si contamos petalos de las flores del campo nos puede salir que una tenga 3, otra 5, otra mas tenga 3, por ahi una que tenga 17, y asi hasta obtener una lista como esta:
3,5,3,17,6,3,4,9,6,4,10, 3,8
(vaya, los he puesto al azar y son numeros muy raros para flores de una pradera... pero creo que serviran)
Si alguien te pregunta cuantos petalos tinen las flores puede resultarte algo incomodo recitar toda la lista, por lo que seguramente diras que "la mayoria tienen" "tienen entre" "mas o menos tienen". Para ello se usan unos test muy sencillos:

Por una parte tenemos las que son medidas de centralización. El objetivo es dar un solo valor que describa todos. Es como si toda nuestra nube estuviera en un punto, o como si todas las flores tuvieran el mismo numero de petalos. Si, habeis acertado, es la media, pero viene acompañado por otros mas:
Moda: La moda, como su propio nombre indica, es el valor que esta "más a la moda", es decir, el que aparece mas veces en nuestros datos. En el caso de nuestras flores (3,5,3,17,6,3,4,9,6,4,10, 3,8 ) seria el numero 3, ya que aparece 4 veces. En total:
numero 3: 4 veces
numeros 4 y 6: 2 veces
numeros 5,8,9,10 y 17: una sola vez.
Es decir, podemos decir que la mayoria de las flores tienen 3 pétalos

Mediana: este es un poco mas raro.Por definición, la mediana es el valor que tiene una frecuencia acumulada del 50%, por lo que seria tan probable encontrar un valor por encima que por debajo de la mediana. Lo primero que tenemos que hacer es ordenar nuestras flores por numero de petalos. Asi tenemos: 3,3,3,3,4,4,5,6,6,9,8,10,17... que hacen un total de trece observaciones (fijaos que he puesto varias veces los valores que habiamos encontrado mas de una vez). Ahora es tan sencillo como contar hasta siete.
3,3,3,3,4,4,5,6,6,9,8,10,17
Si os dais cuenta hay el mismo numero de valores a ambos lados del 5, eso es porque contemos por donde contemos, ese 5 esta en medio.

Media o Promedio: Esta es el test mas conocido y mas (ab)usado. Es como preguntarse a cuantos petalos cabe cada flor si pudieramos repartir el total, o lo que es lo mismo, si uno se come dos pollos y otro ninguno, la media es que cada uno ha comido uno. Las medias nos inundan en los informativos, periodicos, encuestas... Se obtiene sumando todos los valores (3+3+3+3+4+4+5+6+6+9+8+10+17) y se divide entre el total de observaciones (lo que llamabamos poblacion de la muestra) que en este caso es 13. Lo que nos da par las flores 6,23 petalos por flor (como se trata de una variable discreta mejor usar el 6 y asi no nos dejamos cachos de petalos tirados por la pradera).
Esto equivaldria a decir que las flores tienen mas o menos 6 petalos, ya que de forma "imaginaria" cada flor aporta esos 6 pétalos.
Hay otras formas de calcular promedios (esta es la media aritmetica) como son la media geometrica (se obtiene multiplicando todas las observaciones y haciendo la raiz de base de la poblacion) , la media ponderada (que es c0mo la aritmetica solo que cada valor tiene que ser multiplicado antes por su "peso" o importancia) o la media armonica (que se calcula haciendo inversos de los valores de la observaciones, calculando "su media" y despues calcular el inverso de esa "media")


Estas como he dicho son forma de representar los datos en un solo punto. Es por ello que se llaman Estadisticos (o test estadisticos) de centralización, porque buscan los centros sobre los cuales van a distribuirse nuestros datos. Pero no nos dicen todo lo que nos interesa. Ya sabemos por donde nos queda la nube, ¿pero cómo de grande es?... eso lo veremos en futuras entradas.

Felices Fiestas

Felices Fiestas y prospero año nuevo

Después de un breve lapso (exámenes y vuelta a casa) continuaremos con la actividad normal del blog

Un Saludo:

El Gato Cuántico