?
¿Por qué no basta con la media?
Imagina dos grupos de estudiantes con la misma nota media de 6 sobre 10:
Grupo A
Notas: 5, 6, 6, 6, 7
Media = 6
Los cinco alumnos tienen notas muy similares entre sí. El grupo es homogéneo.
Grupo B
Notas: 0, 2, 6, 10, 12
Media = 6
Hay alumnos que suspenden y otros que superan el máximo. El grupo es heterogéneo.
Ambos grupos tienen media idéntica, pero son completamente distintos. Las medidas de tendencia central no captan esa diferencia. Para eso existen las medidas de dispersión: indican cuánto se alejan los datos de su valor central.
Definición. Las medidas de dispersión cuantifican la variabilidad de un conjunto de datos. Cuanto mayor es la dispersión, más heterogéneo es el grupo; cuanto menor, más homogéneo y predecible.
Las cuatro medidas principales
Rango
\(R\)
Diferencia entre el máximo y el mínimo.
Varianza
\(\sigma^2\)
Promedio de las desviaciones al cuadrado.
Desv. típica
\(\sigma\)
Raíz de la varianza. Mismas unidades que los datos.
Coef. variación
\(CV\)
Dispersión relativa en porcentaje. Permite comparar grupos.
R
El rango o recorrido
¿Qué es el rango?
El rango es la medida de dispersión más sencilla. Se obtiene restando el valor mínimo al valor máximo del conjunto de datos. Indica el tamaño del intervalo que abarca toda la distribución.
Idea intuitiva. Si las temperaturas de una semana van de 12 °C a 28 °C, el rango es 16 °C. Ese número resume en un solo valor cuán amplio es el abanico de datos.
Fórmula del rango
Ejemplo resuelto
E1
Temperaturas semanales — Rango
Las temperaturas máximas de una semana fueron (°C): 22, 18, 25, 20, 28, 19, 24. Calcula el rango.
1
Identificar el valor máximo y el mínimo
Datos: 22, 18, 25, 20, 28, 19, 24
Valor máximo:
28 · Valor mínimo:
18
2
Aplicar la fórmula
\[ R = x_{\max} – x_{\min} = 28 – 18 = 10 \text{ °C} \]
Interpretación
Las temperaturas varían en un intervalo de 10 °C a lo largo de la semana. Cuanto mayor sea el rango, más variable es el clima. Un rango de 10 °C indica variabilidad moderada.
Resultado
\( R = 28 – 18 = 10 \text{ °C} \)
Limitación importante del rango
El rango solo usa dos datos (el máximo y el mínimo) e ignora todos los demás. Un único dato extremo lo distorsiona completamente. Por eso se complementa siempre con la varianza y la desviación típica.
\(\sigma^2\)
La varianza
¿Qué es la varianza?
La varianza mide la dispersión promedio de todos los datos respecto a la media. Para calcularla se eleva al cuadrado la diferencia entre cada dato y la media antes de promediarlas. Ese paso es esencial: si sumáramos las diferencias directamente, siempre obtendríamos cero, porque los valores positivos y negativos se cancelan.
¿Por qué al cuadrado? Al elevar al cuadrado conseguimos dos cosas: evitar que las diferencias positivas y negativas se anulen, y penalizar más a los datos que más se alejan de la media (los errores grandes cuentan mucho más que los pequeños).
Fórmula de la varianza
Varianza con tabla de frecuencias. Cuando los datos se presentan con frecuencias absolutas \(f_i\), la fórmula se adapta:
\[ \sigma^2 = \frac{\displaystyle\sum f_i(x_i-\bar{x})^2}{n} \]
donde \(n = \sum f_i\) es el número total de datos.
Cómo construir la tabla de trabajo
Para no perderse en los cálculos, se recomienda construir siempre una tabla con cuatro columnas: los datos \(x_i\), su desviación respecto a la media \((x_i – \bar{x})\), el cuadrado de esa desviación \((x_i – \bar{x})^2\) y, si hay frecuencias, el producto \(f_i(x_i-\bar{x})^2\).
Ejemplo resuelto
E2
Notas de examen — Varianza con tabla de trabajo
Las notas de 5 alumnos son: 4, 6, 8, 10, 12. Calcula la varianza.
1
Calcular la media aritmética
\[ \bar{x} = \frac{4+6+8+10+12}{5} = \frac{40}{5} = 8 \]
2
Construir la tabla de trabajo
Columna 1: cada dato. Columna 2: diferencia con la media. Columna 3: esa diferencia al cuadrado.
| Dato \(x_i\) |
Desviación \((x_i – \bar{x})\) |
Desviación al cuadrado \((x_i – \bar{x})^2\) |
| 4 | \(4 – 8 = -4\) | \((-4)^2 = 16\) |
| 6 | \(6 – 8 = -2\) | \((-2)^2 = 4\) |
| 8 | \(8 – 8 = 0\) | \(0^2 = 0\) |
| 10 | \(10 – 8 = 2\) | \(2^2 = 4\) |
| 12 | \(12 – 8 = 4\) | \(4^2 = 16\) |
| Suma |
0 (siempre) |
40 |
3
Aplicar la fórmula de la varianza
\[ \sigma^2 = \frac{\sum(x_i – \bar{x})^2}{n} = \frac{40}{5} = 8 \]
Verificación con la fórmula alternativa
\[ \overline{x^2} = \frac{4^2+6^2+8^2+10^2+12^2}{5} = \frac{16+36+64+100+144}{5} = \frac{360}{5} = 72 \]
\[ \sigma^2 = \overline{x^2} – \bar{x}^2 = 72 – 8^2 = 72 – 64 = 8 \quad ✅ \]
Interpretación
La varianza es 8, pero sus unidades son «puntos al cuadrado», lo cual no tiene interpretación directa. Por eso se calcula siempre la desviación típica a continuación.
Resultado
\( \sigma^2 = \frac{40}{5} = 8 \text{ puntos}^2 \)
\(\sigma\)
La desviación típica
¿Qué es la desviación típica?
La desviación típica (o desviación estándar) es la raíz cuadrada de la varianza. Al extraer la raíz, el resultado queda expresado en las mismas unidades que los datos originales, lo que facilita enormemente su interpretación.
Es la medida de dispersión más utilizada en estadística porque combina las ventajas de la varianza (considera todos los datos) con la interpretabilidad de tener unidades comprensibles.
Fórmula de la desviación típica
Continuación del ejemplo anterior
E3
Notas de examen — Desviación típica
Con los datos del ejemplo anterior (4, 6, 8, 10, 12) donde \(\sigma^2 = 8\), calcula la desviación típica e interprétala.
1
Tomar la raíz cuadrada de la varianza
\[ \sigma = \sqrt{\sigma^2} = \sqrt{8} = 2\sqrt{2} \approx 2{,}83 \text{ puntos} \]
2
Las unidades ya son las mismas que los datos
La media es 8 puntos y la desviación típica es 2,83 puntos. Ahora tiene sentido decir que los datos se alejan, en promedio, unos 2,83 puntos de la media.
\[ \bar{x} = 8 \text{ puntos} \qquad \sigma \approx 2{,}83 \text{ puntos} \]
Interpretación
Los datos se distribuyen, en promedio, a 2,83 puntos de distancia de la media (8 puntos). Podemos decir que la nota «típica» oscila entre \(8 – 2{,}83 = 5{,}17\) y \(8 + 2{,}83 = 10{,}83\). Cuanto menor sea \(\sigma\), más concentrados están los datos alrededor de la media.
Resultado
\( \sigma = \sqrt{8} = 2\sqrt{2} \approx 2{,}83 \text{ puntos} \)
Ejemplo con tabla de frecuencias
E4
Horas de estudio — Varianza y desviación típica con frecuencias
Se registraron las horas diarias de estudio de 20 alumnos. Los resultados son: 1 hora (3 alumnos), 2 horas (5 alumnos), 3 horas (7 alumnos), 4 horas (4 alumnos), 5 horas (1 alumno). Calcula la varianza y la desviación típica.
1
Calcular la media ponderada
\[ \bar{x} = \frac{3(1)+5(2)+7(3)+4(4)+1(5)}{20} = \frac{3+10+21+16+5}{20} = \frac{55}{20} = 2{,}75 \text{ horas} \]
2
Construir la tabla de trabajo con frecuencias
La columna \(f_i(x_i-\bar{x})^2\) es la clave: multiplica la frecuencia por la desviación al cuadrado. Su suma dividida entre n dará la varianza.
| \(x_i\) |
\(f_i\) |
\((x_i – \bar{x})\) |
\((x_i – \bar{x})^2\) |
\(f_i \cdot (x_i – \bar{x})^2\) |
| 1 | 3 |
\(1-2{,}75=-1{,}75\) |
\((-1{,}75)^2=3{,}0625\) |
\(3\times3{,}0625=9{,}1875\) |
| 2 | 5 |
\(2-2{,}75=-0{,}75\) |
\((-0{,}75)^2=0{,}5625\) |
\(5\times0{,}5625=2{,}8125\) |
| 3 | 7 |
\(3-2{,}75=0{,}25\) |
\((0{,}25)^2=0{,}0625\) |
\(7\times0{,}0625=0{,}4375\) |
| 4 | 4 |
\(4-2{,}75=1{,}25\) |
\((1{,}25)^2=1{,}5625\) |
\(4\times1{,}5625=6{,}25\) |
| 5 | 1 |
\(5-2{,}75=2{,}25\) |
\((2{,}25)^2=5{,}0625\) |
\(1\times5{,}0625=5{,}0625\) |
| Suma |
20 |
— |
— |
23{,}75 |
3
Calcular la varianza
\[ \sigma^2 = \frac{\sum f_i(x_i-\bar{x})^2}{n} = \frac{23{,}75}{20} = 1{,}1875 \text{ h}^2 \]
4
Calcular la desviación típica
\[ \sigma = \sqrt{1{,}1875} \approx 1{,}09 \text{ horas} \]
Interpretación
Los alumnos estudian en promedio 2,75 horas diarias, con una desviación típica de 1,09 horas. Esto significa que la mayoría de los alumnos estudia entre 1,66 y 3,84 horas. La dispersión es moderada: no hay alumnos muy alejados de la media.
Resultados
\( \bar{x} = 2{,}75 \text{ h} \qquad \sigma^2 = 1{,}1875 \text{ h}^2 \qquad \sigma \approx 1{,}09 \text{ h} \)
CV
El coeficiente de variación
¿Para qué sirve?
La desviación típica no permite comparar la dispersión de dos conjuntos cuando tienen medias o unidades diferentes. Un grupo con media 1.000 y desviación 50 puede ser más homogéneo que otro con media 10 y desviación 3. El coeficiente de variación resuelve esto expresando la dispersión como porcentaje de la media.
Regla práctica de interpretación:
CV menor del 15%: dispersión baja, grupo muy homogéneo.
CV entre 15% y 30%: dispersión moderada.
CV superior al 30%: dispersión alta, grupo heterogéneo.
Fórmula del coeficiente de variación
Ejemplo resuelto — Comparar dos grupos
E5
Peso de dos grupos — Coeficiente de variación
Grupo adultos: media 70 kg, desviación típica 14 kg. Grupo niños: media 30 kg, desviación típica 8 kg. ¿Qué grupo tiene mayor variabilidad relativa?
1
Comparar desviaciones típicas directamente no es válido
La desviación de adultos (14 kg) es mayor que la de niños (8 kg), pero las medias también son muy distintas. La comparación directa no es justa.
2
Calcular el coeficiente de variación de adultos
\[ CV_{\text{adultos}} = \frac{\sigma}{\bar{x}} \times 100 = \frac{14}{70} \times 100 = 20\% \]
3
Calcular el coeficiente de variación de niños
\[ CV_{\text{niños}} = \frac{8}{30} \times 100 \approx 26{,}7\% \]
4
Comparar e interpretar
\[ CV_{\text{adultos}} = 20\% < CV_{\text{niños}} = 26{,}7\% \]
El grupo de niños tiene mayor variabilidad relativa, aunque su desviación absoluta sea menor.
Interpretación
El peso de los niños varía más en términos relativos (26,7%) que el de los adultos (20%). Aunque en kilogramos los adultos se dispersan más (14 kg vs 8 kg), en proporción a su peso propio son los niños quienes muestran más variabilidad relativa.
Conclusión
El grupo de niños es más heterogéneo: \(CV = 26{,}7\%\) frente a \(CV = 20\%\) de los adultos.
E6
Ejemplo completo — Las cuatro medidas juntas
A continuación se calcula el rango, la varianza, la desviación típica y el coeficiente de variación sobre el mismo conjunto de datos, siguiendo el proceso completo de forma ordenada.
E6
Salarios de un equipo — Análisis completo de dispersión
Los salarios mensuales (en cientos de euros) de 6 empleados son: 12, 15, 18, 15, 22, 14. Calcula todas las medidas de dispersión.
1
Calcular la media
\[ \bar{x} = \frac{12+15+18+15+22+14}{6} = \frac{96}{6} = 16 \text{ (cientos de €)} \]
2
Calcular el rango
\[ R = 22 – 12 = 10 \text{ (cientos de €)} \]
3
Tabla de trabajo para la varianza
| \(x_i\) |
\((x_i – 16)\) |
\((x_i – 16)^2\) |
| 12 | \(-4\) | \(16\) |
| 15 | \(-1\) | \(1\) |
| 18 | \(2\) | \(4\) |
| 15 | \(-1\) | \(1\) |
| 22 | \(6\) | \(36\) |
| 14 | \(-2\) | \(4\) |
| Suma | 0 | 62 |
4
Varianza
\[ \sigma^2 = \frac{62}{6} \approx 10{,}33 \text{ (cientos de €)}^2 \]
5
Desviación típica
\[ \sigma = \sqrt{10{,}33} \approx 3{,}21 \text{ (cientos de €)} \]
6
Coeficiente de variación
\[ CV = \frac{3{,}21}{16} \times 100 \approx 20{,}1\% \]
Interpretación completa
Los salarios oscilan en un rango de 1.000 € (de 1.200 a 2.200 €). La desviación típica de 321 € indica que la mayoría de los salarios se sitúa entre 1.279 € y 1.921 €. El coeficiente de variación del 20,1% refleja dispersión moderada: el equipo tiene cierta diversidad salarial pero no es extrema.
Resumen de resultados
\( R = 10 \quad \sigma^2 \approx 10{,}33 \quad \sigma \approx 3{,}21 \quad CV \approx 20{,}1\% \)
Cuándo usar cada medida
| Medida |
Usa todos los datos |
Mismas unidades |
Permite comparar grupos distintos |
Sensible a atípicos |
| Rango |
No (solo 2) |
Sí |
Limitado |
Muy alta |
| Varianza |
Sí |
No (unidades²) |
No directamente |
Alta |
| Desv. típica |
Sí |
Sí |
Solo si medias iguales |
Alta |
| Coef. variación |
Sí (a través de σ) |
Sin unidades (%) |
Sí, siempre |
Alta |
!
Errores comunes
Estos son los tres errores que los estudiantes cometen con más frecuencia al calcular las medidas de dispersión.
ERROR 1
Olvidar dividir entre n al calcular la varianza
Incorrecto
\(\sigma^2 = \sum(x_i-\bar{x})^2 = 40\)
Solo suman las desviaciones al cuadrado y la llaman varianza, sin dividir entre el número de datos.
Correcto
\(\sigma^2 = \frac{40}{5} = 8\)
La varianza es el promedio de las desviaciones al cuadrado. Siempre hay que dividir entre n.
Regla de memoria: la varianza es una media. Toda media implica dividir entre n. Si no divides, no es varianza.
ERROR 2
Comparar la dispersión de dos grupos solo con la desviación típica
Incorrecto
\(\sigma_A=10 > \sigma_B=6\)
«A es más disperso»
Si la media de A es 200 y la de B es 20, la comparación directa no tiene sentido.
Correcto
\(CV_A=5\% < CV_B=30\%\)
«B es más disperso»
El coeficiente de variación permite la comparación justa al expresar la dispersión como porcentaje de la media.
Cuando las medias de los grupos son distintas, usa siempre el coeficiente de variación para comparar dispersión.
ERROR 3
No elevar al cuadrado las desviaciones antes de sumarlas
Incorrecto
\(\sigma^2 = \frac{\sum(x_i-\bar{x})}{n} = \frac{0}{n} = 0\)
Suman directamente las diferencias sin elevarlas al cuadrado. El resultado siempre es cero porque positivos y negativos se anulan.
Correcto
\(\sigma^2 = \frac{\sum(x_i-\bar{x})^{\mathbf{2}}}{n}\)
El cuadrado es obligatorio: convierte todos los valores en positivos e impide que se anulen.
La suma de las desviaciones siempre es cero. Por eso existe el cuadrado: para que los datos «no se anulen» entre sí.
?
Preguntas frecuentes
Q
¿La varianza puede ser negativa?
▼
No. La varianza nunca puede ser negativa. Su fórmula suma cuadrados de diferencias, y un cuadrado es siempre mayor o igual que cero. En consecuencia, la suma de cuadrados también es mayor o igual que cero, y al dividir entre n el resultado sigue siendo no negativo.
El único caso en que la varianza vale cero es cuando todos los datos son idénticos: entonces todas las desviaciones son cero y la suma de sus cuadrados también es cero.
Si al calcular obtienes una varianza negativa, revisa si olvidaste elevar al cuadrado las diferencias o si cometiste un error de signo en alguna resta.
Q
¿Cuál es la diferencia entre varianza poblacional y varianza muestral?
▼
En estadística existen dos versiones de la varianza:
Varianza poblacional (\(\sigma^2\)): se usa cuando los datos representan a toda la población. Se divide entre \(n\).
\[ \sigma^2 = \frac{\sum(x_i-\bar{x})^2}{n} \]
Varianza muestral (\(s^2\)): se usa cuando los datos son una muestra de la población y queremos estimar la varianza real. Se divide entre \(n-1\) para corregir el sesgo de estimación.
\[ s^2 = \frac{\sum(x_i-\bar{x})^2}{n-1} \]
En secundaria y bachillerato se trabaja casi siempre con la varianza poblacional (dividir entre n). La varianza muestral aparece en estadística inferencial avanzada.
Q
¿Qué ocurre con la desviación típica si sumo o multiplico una constante a todos los datos?
▼
Hay dos reglas muy útiles para no recalcular desde cero:
Si sumas o restas una constante k a todos los datos: la desviación típica no cambia, porque las distancias entre los datos y su media se mantienen iguales. \[\sigma’ = \sigma\]
Si multiplicas todos los datos por una constante k: la desviación típica se multiplica por el valor absoluto de k. \[\sigma’ = |k| \cdot \sigma\]
Ejemplo: si todas las notas suben 2 puntos, la dispersión no cambia (la desviación típica es la misma). Pero si todas las notas se multiplican por 2, la dispersión se duplica.
Q
¿La desviación típica indica siempre que los datos están dentro del intervalo \(\bar{x} \pm \sigma\)?
▼
No siempre, pero sí en la mayoría de los casos reales. Para distribuciones con forma de campana (distribución normal), se cumple que:
Aproximadamente el 68% de los datos está entre \(\bar{x} – \sigma\) y \(\bar{x} + \sigma\).
Aproximadamente el 95% de los datos está entre \(\bar{x} – 2\sigma\) y \(\bar{x} + 2\sigma\).
Aproximadamente el 99,7% de los datos está entre \(\bar{x} – 3\sigma\) y \(\bar{x} + 3\sigma\).
Esto se conoce como la regla empírica o regla 68-95-99,7. Es una herramienta muy poderosa para interpretar la desviación típica en contextos reales como calificaciones, tallas o medidas físicas.
Q
¿Cuándo es preferible usar el rango en lugar de la desviación típica?
▼
El rango es preferible en situaciones donde la simplicidad y la rapidez son más importantes que la precisión estadística, o cuando el interés real está en los extremos de los datos:
- Control de calidad: en producción industrial se usa el rango de muestras pequeñas para detectar rápidamente si el proceso se sale de los límites aceptables.
- Meteorología: la amplitud térmica diaria (temperatura máxima menos mínima) es un rango con significado directo.
- Comunicación rápida: cuando hay que transmitir la variabilidad en una frase sin entrar en cálculos complejos.
En contextos académicos y científicos, la desviación típica siempre es preferible porque usa toda la información del conjunto, no solo los dos valores extremos.