?
Dispersión en datos agrupados: punto de partida
En el artículo anterior aprendiste a calcular la media, la mediana y la moda para datos agrupados en intervalos. Esas medidas describen el centro de la distribución. Ahora necesitamos saber cuánto se dispersan los datos alrededor de ese centro.
La lógica es exactamente la misma que para datos agrupados sin intervalos, con una diferencia fundamental: como no conocemos los valores individuales de cada dato, usamos la marca de clase como representante de todo su intervalo.
Recordatorio clave: la marca de clase. Para cada intervalo \([L_i,\, L_{i+1})\), la marca de clase es su punto medio:
\[ x_i = \frac{L_i + L_{i+1}}{2} \]
Todos los datos dentro de ese intervalo se representan con \(x_i\) para calcular la dispersión.
Las cuatro medidas de dispersión para datos agrupados
Rango \(R\)
Diferencia entre el límite superior del último intervalo y el límite inferior del primero. Solo usa los extremos de la tabla.
Varianza \(\sigma^2\)
Promedio ponderado de las desviaciones al cuadrado de cada marca de clase respecto a la media. Usa toda la tabla.
Desviación típica \(\sigma\)
Raíz cuadrada de la varianza. Mismas unidades que los datos y que la media.
Coef. de variación \(CV\)
Dispersión relativa en porcentaje. Permite comparar grupos con distintas medias o unidades.
Antes de empezar: construye siempre la tabla completa
Para calcular cualquier medida de dispersión en datos agrupados, es imprescindible tener previamente calculada la
media aritmética \(\bar{x}\) del conjunto y contar con las columnas de marca de clase \(x_i\), frecuencia absoluta \(f_i\) y frecuencia acumulada \(F_i\). Si no tienes esos valores, calcula primero la media.
R
El rango para datos agrupados
¿Cómo se calcula?
Para datos agrupados, el rango se calcula como la diferencia entre el límite superior del último intervalo y el límite inferior del primer intervalo. No se usan las marcas de clase, sino los extremos reales de la tabla.
Limitación del rango en datos agrupados. Al usar los extremos de los intervalos, el rango puede sobreestimar la dispersión real: los extremos del primer y último intervalo pueden no ser datos reales, sino solo límites del agrupamiento. Por eso la varianza y la desviación típica son siempre más informativas.
Ejemplo resuelto
E1
Tiempos de entrega — Rango
Los tiempos de entrega (en días) de 50 pedidos se agruparon en: [1,4), [4,7), [7,10), [10,13), [13,16]. Calcula el rango.
1
Identificar los extremos de la tabla
Primer intervalo: [1, 4) → límite inferior =
1
Último intervalo: [13, 16] → límite superior =
16
2
Aplicar la fórmula
\[ R = L_{\text{sup,último}} – L_{\text{inf,primero}} = 16 – 1 = 15 \text{ días} \]
Interpretación
Los tiempos de entrega abarcan un rango de 15 días. Esto indica que existe una variabilidad considerable entre el pedido más rápido y el más lento. El rango no nos dice nada sobre cómo se distribuyen los pedidos dentro de ese intervalo, para eso necesitamos la varianza.
Resultado
\( R = 16 – 1 = 15 \text{ días} \)
\(\sigma^2\)
La varianza para datos agrupados
La fórmula y su lectura
La varianza para datos agrupados sigue la misma lógica que para datos sin agrupar: es el promedio ponderado de las desviaciones al cuadrado. La diferencia es que, en lugar de usar cada dato individual, usamos la marca de clase de su intervalo, ponderada por la frecuencia de ese intervalo.
Cómo construir la tabla de trabajo
La tabla de trabajo para la varianza requiere las siguientes columnas. Cada columna adicional se construye sobre las anteriores.
| Columna |
Cómo se obtiene |
Para qué sirve |
| Intervalo | Dado en el enunciado | Define cada grupo |
| Marca de clase \(x_i\) | \((L_i + L_{i+1})/2\) | Representa el intervalo |
| Frecuencia \(f_i\) | Dada en el enunciado | Ponderación |
| Desviación \((x_i – \bar{x})\) | Marca de clase menos media | Diferencia respecto al centro |
| Desviación cuadrada \((x_i – \bar{x})^2\) | Cuadrado de la columna anterior | Elimina signos negativos |
| \(f_i(x_i – \bar{x})^2\) | Producto frecuencia × desv. cuadrada | Suma para obtener el numerador |
Ejemplo resuelto — Varianza de tiempos de entrega
E2
Tiempos de entrega — Varianza con tabla de trabajo
Los tiempos de entrega (días) de 50 pedidos se distribuyeron así: [1,4): 8 pedidos; [4,7): 15 pedidos; [7,10): 18 pedidos; [10,13): 6 pedidos; [13,16]: 3 pedidos. Calcula la varianza.
1
Calcular la media (paso previo imprescindible)
Primero construimos las marcas de clase y los productos \(f_i \cdot x_i\).
| Intervalo | \(x_i\) | \(f_i\) | \(f_i \cdot x_i\) |
| [1, 4) | 2,5 | 8 | 20 |
| [4, 7) | 5,5 | 15 | 82,5 |
| [7, 10) | 8,5 | 18 | 153 |
| [10, 13) | 11,5 | 6 | 69 |
| [13, 16] | 14,5 | 3 | 43,5 |
| Totales | — | 50 | 368 |
\[ \bar{x} = \frac{368}{50} = 7{,}36 \text{ días} \]
2
Construir la tabla de trabajo para la varianza
Para cada intervalo: calcula la desviación \((x_i – \bar{x})\), elévala al cuadrado y multiplica por \(f_i\).
| \(x_i\) |
\(f_i\) |
\((x_i – 7{,}36)\) |
\((x_i – 7{,}36)^2\) |
\(f_i(x_i-7{,}36)^2\) |
| 2,5 | 8 |
\(2{,}5-7{,}36=-4{,}86\) |
\((-4{,}86)^2=23{,}62\) |
\(8\times23{,}62=188{,}93\) |
| 5,5 | 15 |
\(5{,}5-7{,}36=-1{,}86\) |
\((-1{,}86)^2=3{,}46\) |
\(15\times3{,}46=51{,}85\) |
| 8,5 | 18 |
\(8{,}5-7{,}36=1{,}14\) |
\((1{,}14)^2=1{,}30\) |
\(18\times1{,}30=23{,}38\) |
| 11,5 | 6 |
\(11{,}5-7{,}36=4{,}14\) |
\((4{,}14)^2=17{,}14\) |
\(6\times17{,}14=102{,}82\) |
| 14,5 | 3 |
\(14{,}5-7{,}36=7{,}14\) |
\((7{,}14)^2=50{,}98\) |
\(3\times50{,}98=152{,}94\) |
| Sumas |
50 |
0 |
— |
519{,}92 |
3
Calcular la varianza
\[ \sigma^2 = \frac{\sum f_i(x_i-\bar{x})^2}{n} = \frac{519{,}92}{50} = 10{,}40 \text{ días}^2 \]
Verificación con la fórmula alternativa
\( \sum f_i x_i^2 = 8(2{,}5)^2+15(5{,}5)^2+18(8{,}5)^2+6(11{,}5)^2+3(14{,}5)^2 \)
\( = 50+453{,}75+1300{,}5+793{,}5+632{,}25 = 3230 \)
\( \sigma^2 = \frac{3230}{50} – (7{,}36)^2 = 64{,}60 – 54{,}17 = 10{,}43 \approx 10{,}40 \quad\checkmark \)
La pequeña diferencia (10,40 vs 10,43) se debe al redondeo de la media a dos decimales.
Interpretación
La varianza es 10,40 días², pero sus unidades al cuadrado dificultan la interpretación directa. Necesitamos calcular la desviación típica para tener un valor comparable con los datos originales.
Resultado
\( \sigma^2 = \dfrac{519{,}92}{50} \approx 10{,}40 \text{ días}^2 \)
\(\sigma\)
La desviación típica para datos agrupados
Fórmula
La desviación típica es directamente la raíz cuadrada de la varianza. Al extraer la raíz, el resultado queda en las mismas unidades que los datos (en el ejemplo anterior, en días), lo que facilita mucho su interpretación.
Continuación del ejemplo — Desviación típica
E3
Tiempos de entrega — Desviación típica e interpretación
Con \(\sigma^2 \approx 10{,}40\) días² calculada en el ejemplo anterior, halla la desviación típica e interprétala.
1
Calcular la raíz cuadrada de la varianza
\[ \sigma = \sqrt{10{,}40} \approx 3{,}22 \text{ días} \]
2
La desviación típica ya tiene las mismas unidades que los datos
Media: 7,36 días · Desviación típica: 3,22 días
\[ \bar{x} \pm \sigma \Rightarrow [7{,}36 – 3{,}22,\; 7{,}36 + 3{,}22] = [4{,}14,\; 10{,}58] \text{ días} \]
Interpretación
Los tiempos de entrega tienen una media de 7,36 días con una desviación típica de 3,22 días. La mayoría de los pedidos (alrededor del 68% si la distribución es aproximadamente normal) se entrega entre 4,1 y 10,6 días. Una desviación de 3,22 días sobre una media de 7,36 representa una variabilidad considerable del 43,8%, lo que indica que los tiempos de entrega son bastante irregulares.
Resultado
\( \sigma = \sqrt{10{,}40} \approx 3{,}22 \text{ días} \)
CV
El coeficiente de variación
El coeficiente de variación (CV) expresa la desviación típica como porcentaje de la media. Es especialmente útil para comparar la dispersión entre dos distribuciones con medias o unidades diferentes.
Regla de interpretación del CV.
CV < 15%: dispersión baja, grupo homogéneo.
CV entre 15% y 30%: dispersión moderada.
CV > 30%: dispersión alta, grupo heterogéneo.
Ejemplo resuelto — CV de tiempos de entrega
E4
Tiempos de entrega — Coeficiente de variación
Con \(\bar{x} = 7{,}36\) días y \(\sigma \approx 3{,}22\) días, calcula el CV e interpreta el nivel de homogeneidad del servicio.
1
Aplicar la fórmula
\[ CV = \frac{\sigma}{\bar{x}} \times 100 = \frac{3{,}22}{7{,}36} \times 100 \approx 43{,}8\% \]
2
Interpretar según la escala del CV
\[ CV \approx 43{,}8\% > 30\% \quad\Rightarrow\quad \text{Dispersión alta — servicio muy irregular} \]
Interpretación
Un CV del 43,8% indica que los tiempos de entrega son altamente irregulares: la desviación típica representa casi la mitad de la media. Esto significa que el servicio de entrega tiene muy poca consistencia. Para mejorar la calidad del servicio, sería necesario reducir la variabilidad, no solo la media.
Resultado
\( CV \approx 43{,}8\% \) — Dispersión alta
E
Ejemplo completo — Todas las medidas juntas
A continuación se resuelven todas las medidas de dispersión sobre un conjunto de datos nuevo, siguiendo el proceso completo desde la tabla de trabajo hasta el resumen de resultados.
E5
Notas de bachillerato — Análisis completo de dispersión
Las notas (sobre 10) de 60 alumnos de bachillerato se agruparon así: [0,2): 2 alumnos; [2,4): 8 alumnos; [4,6): 20 alumnos; [6,8): 22 alumnos; [8,10]: 8 alumnos. Calcula el rango, la varianza, la desviación típica y el coeficiente de variación.
1
Rango
Límite inferior del primer intervalo: 0 · Límite superior del último: 10
\[ R = 10 – 0 = 10 \text{ puntos} \]
2
Tabla maestra — media y varianza en un solo paso
Esta tabla única calcula simultáneamente todos los productos necesarios para la media y la varianza.
| Intervalo |
\(x_i\) |
\(f_i\) |
\(f_i x_i\) |
\(x_i^2\) |
\(f_i x_i^2\) |
| [0, 2) |
1 | 2 |
2 | 1 | 2 |
| [2, 4) |
3 | 8 |
24 | 9 | 72 |
| [4, 6) |
5 | 20 |
100 | 25 | 500 |
| [6, 8) |
7 | 22 |
154 | 49 | 1.078 |
| [8, 10] |
9 | 8 |
72 | 81 | 648 |
| Totales |
— |
60 |
352 |
— |
2.300 |
3
Calcular la media
\[ \bar{x} = \frac{\sum f_i x_i}{n} = \frac{352}{60} \approx 5{,}867 \text{ puntos} \]
4
Calcular la varianza con la fórmula alternativa
\[ \sigma^2 = \frac{\sum f_i x_i^2}{n} – \bar{x}^2 = \frac{2.300}{60} – (5{,}867)^2 \]
\[ \sigma^2 = 38{,}33 – 34{,}42 = 3{,}91 \text{ puntos}^2 \]
5
Calcular la desviación típica
\[ \sigma = \sqrt{3{,}91} \approx 1{,}98 \text{ puntos} \]
6
Calcular el coeficiente de variación
\[ CV = \frac{1{,}98}{5{,}867} \times 100 \approx 33{,}7\% \]
Interpretación completa
Las notas abarcan todo el rango posible (de 0 a 10). La nota media es 5,87 puntos, con una desviación típica de 1,98 puntos, lo que significa que la mayoría de los alumnos obtiene entre 3,9 y 7,9 puntos. El coeficiente de variación del 33,7% indica dispersión alta: hay bastante heterogeneidad en el rendimiento académico del grupo, con alumnos tanto en niveles bajos como altos.
Resumen de resultados
\( R=10 \quad \bar{x}\approx5{,}87 \quad \sigma^2\approx3{,}91 \quad \sigma\approx1{,}98 \quad CV\approx33{,}7\% \)
≠
Comparar la dispersión de dos grupos
Una de las aplicaciones más útiles de las medidas de dispersión es comparar la variabilidad de dos grupos distintos. Si los grupos tienen medias o unidades diferentes, la comparación debe hacerse siempre con el coeficiente de variación.
E6
Dos sucursales — Comparar dispersión de ventas
Sucursal A: media de ventas diarias 850 €, desviación típica 120 €. Sucursal B: media de ventas diarias 2.400 €, desviación típica 280 €. ¿Cuál sucursal tiene ventas más uniformes en términos relativos?
1
Comparar desviaciones típicas directamente no es válido
La desviación de B (280 €) es mayor que la de A (120 €), pero la media de B también es casi tres veces mayor. La comparación directa no es justa.
2
Calcular el CV de la sucursal A
\[ CV_A = \frac{120}{850} \times 100 \approx 14{,}1\% \]
3
Calcular el CV de la sucursal B
\[ CV_B = \frac{280}{2.400} \times 100 \approx 11{,}7\% \]
4
Comparar e interpretar
\[ CV_B = 11{,}7\% < CV_A = 14{,}1\% \quad\Rightarrow\quad \text{La sucursal B tiene ventas más uniformes} \]
Interpretación
Aunque la sucursal B tiene una mayor desviación absoluta (280 € frente a 120 €), en términos relativos es más uniforme: su CV del 11,7% está por debajo del umbral del 15% (dispersión baja), mientras que el CV del 14,1% de la sucursal A también es bajo pero algo mayor. La sucursal B factura más y con mayor consistencia relativa.
Conclusión
La sucursal B es más homogénea: \(CV_B = 11{,}7\% < CV_A = 14{,}1\%\)
Tabla comparativa de las medidas
| Medida |
Fórmula clave |
Unidades |
Compara grupos distintos |
Sensible a atípicos |
| Rango |
\(L_{\sup} – L_{\inf}\) |
Mismas que datos |
No |
Muy alta |
| Varianza |
\(\dfrac{\sum f_i(x_i-\bar{x})^2}{n}\) |
Unidades² |
No directamente |
Alta |
| Desv. típica |
\(\sqrt{\sigma^2}\) |
Mismas que datos |
Solo con misma media |
Alta |
| Coef. variación |
\(\dfrac{\sigma}{\bar{x}}\times100\%\) |
Sin unidades (%) |
Siempre |
Alta |
!
Errores comunes
ERROR 1
Usar el límite del intervalo en lugar de la marca de clase en la varianza
Incorrecto
[4,7): se usa 4
\(\sigma^2=\sum f_i(4-\bar{x})^2/n\)
Utilizan el límite inferior del intervalo (4) en lugar de la marca de clase (5,5), lo que produce una varianza sistemáticamente incorrecta.
Correcto
[4,7): se usa 5,5
\(x_i=(4+7)/2=5{,}5\)
La varianza usa la marca de clase (punto medio del intervalo) en todas las columnas de cálculo.
Regla: en datos agrupados, toda operación aritmética (media, varianza, etc.) usa la marca de clase \(x_i = (L_i + L_{i+1})/2\), nunca los límites por separado.
ERROR 2
Olvidar ponderar por la frecuencia al calcular la varianza
Incorrecto
\(\sigma^2=\dfrac{\sum(x_i-\bar{x})^2}{k}\)
(divide entre el nº de intervalos)
Suman las desviaciones al cuadrado y dividen entre k (número de intervalos) sin ponderar por las frecuencias. Esto da el mismo peso a intervalos con 2 datos y a intervalos con 50 datos.
Correcto
\(\sigma^2=\dfrac{\sum f_i(x_i-\bar{x})^2}{n}\)
(divide entre el total de datos)
Cada desviación se multiplica por \(f_i\) (su frecuencia) y se divide entre n (total de datos), no entre k (número de intervalos).
La varianza es un promedio ponderado. La ponderación es la frecuencia \(f_i\) y el total es \(n = \sum f_i\), no el número de intervalos \(k\).
ERROR 3
Comparar la dispersión de dos grupos con distintas medias usando solo la desviación típica
Incorrecto
\(\sigma_A=120 > \sigma_B=80\)
«A es más disperso»
Si la media de A es 1.000 y la de B es 100, la comparación directa de desviaciones es engañosa.
Correcto
\(CV_A=12\% < CV_B=80\%\)
«B es mucho más disperso»
El coeficiente de variación hace comparables dos grupos con medias o escalas distintas.
Cuando las medias son distintas, siempre usa el CV para comparar dispersión. La desviación típica solo es directamente comparable si las medias son iguales o muy similares.
?
Preguntas frecuentes
Q
¿La fórmula alternativa de la varianza (\(\overline{x^2} – \bar{x}^2\)) funciona exactamente igual para datos agrupados?
▼
Sí, matemáticamente es equivalente a la fórmula directa. La demostración es la misma que para datos sin agrupar, solo que con el sumatorio ponderado por \(f_i\):
\[ \sigma^2 = \frac{\sum f_i(x_i-\bar{x})^2}{n} = \frac{\sum f_i x_i^2}{n} – \bar{x}^2 \]
La ventaja práctica es que evita calcular la diferencia \((x_i – \bar{x})\) para cada intervalo. En su lugar, solo necesitas la columna \(f_i \cdot x_i^2\), que a menudo es más rápida de calcular.
Atención: si la media se ha redondeado, la fórmula alternativa puede dar un resultado ligeramente distinto al directo. Esto no es un error, sino una consecuencia del redondeo. Con la media exacta, ambas fórmulas dan el mismo resultado.
Q
¿La desviación típica para datos agrupados siempre es mayor que para los mismos datos sin agrupar?
▼
No necesariamente, pero en general la agrupación introduce una imprecisión en el cálculo de la varianza, ya que se sustituyen los valores individuales por las marcas de clase de sus intervalos.
Si los datos reales dentro de un intervalo están concentrados cerca de la marca de clase, la diferencia es mínima. Si están más cerca de los extremos del intervalo, la varianza calculada con marcas de clase puede diferir algo de la varianza real.
En estadística descriptiva de bachillerato, esta imprecisión se acepta como parte del proceso de agrupación. La varianza para datos agrupados es una estimación de la varianza real, igual que la media para datos agrupados es una estimación de la media real.
Q
¿Qué ocurre con la varianza si añado o multiplico una constante a todas las marcas de clase?
▼
Las mismas propiedades que para datos sin agrupar se aplican también a datos agrupados, porque las fórmulas tienen la misma estructura matemática:
Si sumas una constante k a todas las marcas de clase: la media aumenta en k, pero la varianza y la desviación típica no cambian, porque las diferencias \((x_i – \bar{x})\) permanecen iguales.
\[ \sigma^2_{\text{nuevo}} = \sigma^2 \qquad \sigma_{\text{nuevo}} = \sigma \]
Si multiplicas todas las marcas de clase por una constante k: la varianza se multiplica por k², y la desviación típica por |k|.
\[ \sigma^2_{\text{nuevo}} = k^2 \cdot \sigma^2 \qquad \sigma_{\text{nuevo}} = |k| \cdot \sigma \]
Esta propiedad es muy útil para cambiar de unidades (por ejemplo, de centímetros a metros) sin recalcular toda la tabla de trabajo.
Q
¿Cuándo es más conveniente usar la fórmula directa de la varianza y cuándo la alternativa?
▼
Fórmula directa \(\left(\sigma^2 = \dfrac{\sum f_i(x_i-\bar{x})^2}{n}\right)\): es más intuitiva y facilita entender qué significa la varianza. Se recomienda cuando las desviaciones \((x_i – \bar{x})\) son números pequeños y fáciles de elevar al cuadrado.
Fórmula alternativa \(\left(\sigma^2 = \dfrac{\sum f_i x_i^2}{n} – \bar{x}^2\right)\): es más rápida de calcular cuando las marcas de clase son números grandes o cuando ya tienes calculada la columna \(f_i x_i\) para la media (solo necesitas añadir \(f_i x_i^2\)).
En un examen con calculadora, la fórmula alternativa suele ser más eficiente porque evita calcular múltiples restas y cuadrados. En papel, la directa permite revisar mejor si se ha cometido algún error.
Q
¿La suma de la columna de desviaciones \((x_i – \bar{x})\) debe ser cero también en datos agrupados?
▼
La suma de las desviaciones ponderadas \(\sum f_i(x_i – \bar{x})\) siempre es cero, igual que para datos sin agrupar. Esto es una consecuencia directa de la definición de la media:
\[ \sum f_i(x_i – \bar{x}) = \sum f_i x_i – \bar{x} \sum f_i = n\bar{x} – \bar{x}\cdot n = 0 \]
Sin embargo, la suma de las desviaciones sin ponderar \(\sum (x_i – \bar{x})\) no tiene por qué ser cero, porque cada intervalo tiene distinto peso.
Esto sirve como verificación de la tabla: si la suma de la columna \(f_i(x_i – \bar{x})\) no es cero (o muy cercana a cero por redondeos), hay un error en el cálculo de la media o de las desviaciones.