4.2.07

Cómo estar medianamente disperso: Estadística para Dummies 4

En fascículos anteriores

Ya hemos hablado de las medidas de centralización, también llamados de posicionamiento, ya que si tenemos una nube de datos, nos indica más o menos donde se encuentra esa nube.

Hoy tocan las medidas de dispersión. Ahora no importa tanto dónde está la nube, sino como de grande o pequeña es.

El Rango, o recorrido, es la distancia que hay desde un extremo al otro de la nube. Es decir, es tan sencillo como coger el valor más pequeño y el más grande y restarlos. Si hemos estado mirando números de huevos en nidos y obtenemos unos datos como estos:

1, 1, 2, 2,2, 2, 3, 3, 3, 5, 5,6 ,6,8,10

El rango sería la diferencia que hay entre el nido con más huevos y el de menos huevos. En este caso 10 – 1 = 9. Como podréis ver es muy sencillito de calcular. Además, nos dice la variación máxima que puede haber entre datos.

El Rango intercuartílico es una variación de esto. Los cuartiles pueden ser de distintas proporciones. Si recordáis la mediana, es el valor que está en medio de todos los datos. Pues esto es algo parecido, sólo que nos interesa saber cuál es el que hace un cuarto, dos cuartos (que es la mediana), tres cuartos, o cuál es el que corresponde al 10%, 15%...

Vamos a hacer una tablita, en la primera columna ponemos el número de huevos que podemos encontrar. En la segunda la probabilidad, es decir, el porcentaje de nidos en los que encontramos ese número de huevos. En la tercera ponemos la probabilidad acumulada, que se obtiene tras sumar la probabilidad de ese número de huevos con los anteriores. Es algo así como la probabilidad de encontrar ese número de huevos o menos.

Número de Huevos Probabilidad Probabilidad acumulada (sumando)

1 13% 13

2 26% 39 El Primer Cuartel es este

3 20% 59 Esta es la segundo cuartil

4 0% 59

5 13% 72

6 13% 85 Este es el tercer cuartil

7 0% 85

8 6% 91

9 0% 100

(he hecho trampas en este último por haber redondeado antes)

Si queremos calcular el percentil 10, por ejemplo, buscamos qué número de huevos tiene al menos un 10% de probabilidad, En este caso 1 sólo huevo. El percentil 85 serán 7 huevos.

Bueno, hecho este pequeño paréntesis, el rango intercuartílico es la “distancia” que hay entre el primer cuartel y el tercero. Es decir, entre 2 y 6 huevos. Este rango será pues 4.

Varianza: Esta medida es más común en las estadísticas. De momento, con los rangos nos permitían saber cómo de grande es la nube de datos, desde un extremo al otro, pero no nos dice cómo están dispersos los datos. Veamos un ejemplo. Imaginemos dos series de datos:

Serie A: 1,1,1,1,1,10,10,10,10,10, 10

Serie B: 1,5,5,5,5,5,5,5,5,5,10

En ambos casos el rango o recorrido es 9, pero si miramos bien, en A los datos están más alejados del centro que en B. Por ello es necesario la varianza.

La varianza es una medida que nos dice cómo de desviados están de la media los datos. Es algo así como una media de las desviaciones de cada valor. Claro, estamos sumando diferencias, y si el dato es más pequeño que la media, saldría negativo y en vez de sumar diferencia, la resta. Por ello tomamos cuadrados a estas diferencias (ya que los cuadrados siempre son positivos).

Cogemos cada valor, le restamos la media, lo elevamos al cuadrado y los sumamos entre ellos. Sólo queda dividirlo por el número de datos.

Para la serie A:
Media: 5,9


Pues 5.9 menos 1 al cuadrado, más, 5.9 menos 1 al cuadrado, más... y todo eso lo dividimos entre 11, total: 22’09

Para la serie B:
Media: 5.09
Hacemos lo mismo de restar a la media y elevar cuadrados y dividir por el número total de valores. La varianza nos da 4.09. Es decir, los datos de la serie A están más dispersos (tienen más varianza) que lo de la serie B


Desviación Estándar (o desviación típica): Está íntimamente ligada a la varianza. Como en la varianza hemos hecho cuadrados, las unidades no coinciden. Es decir, si los datos están en mm, la varianza vendrá en mm cuadrados. Por ello hacemos la raíz cuadrada.

La desviación estándar es sólo eso, la raíz cuadrada de la varianza. Tiene sus ventajas, como que la podemos sumar tranquilamente a la media.

Bueno, creo que por hoy ya está bien. Hay otras medidas de dispersión, pero no son importantes ahora. Ya las veremos más adelante.