Medidas de Dispersión para Datos Agrupados: Ejercicios Resueltos

En el tema de medidas de disperción para datos agrupados u organizados en intervalos, las fórmulas del rango, la varianza, la desviación típica y el coeficiente de variación se adaptan para trabajar con marcas de clase. Aprende a calcularlas paso a paso con tablas de trabajo completas.

Estadística Descriptiva — Datos agrupados en intervalos

Tabla de Contenidos

Medidas de dispersión para datos agrupados

?
Dispersión en datos agrupados: punto de partida

En el artículo anterior aprendiste a calcular la media, la mediana y la moda para datos agrupados en intervalos. Esas medidas describen el centro de la distribución. Ahora necesitamos saber cuánto se dispersan los datos alrededor de ese centro.

La lógica es exactamente la misma que para datos agrupados sin intervalos, con una diferencia fundamental: como no conocemos los valores individuales de cada dato, usamos la marca de clase como representante de todo su intervalo.

Recordatorio clave: la marca de clase. Para cada intervalo \([L_i,\, L_{i+1})\), la marca de clase es su punto medio: \[ x_i = \frac{L_i + L_{i+1}}{2} \] Todos los datos dentro de ese intervalo se representan con \(x_i\) para calcular la dispersión.

Las cuatro medidas de dispersión para datos agrupados

Rango \(R\)

Diferencia entre el límite superior del último intervalo y el límite inferior del primero. Solo usa los extremos de la tabla.

Varianza \(\sigma^2\)

Promedio ponderado de las desviaciones al cuadrado de cada marca de clase respecto a la media. Usa toda la tabla.

Desviación típica \(\sigma\)

Raíz cuadrada de la varianza. Mismas unidades que los datos y que la media.

Coef. de variación \(CV\)

Dispersión relativa en porcentaje. Permite comparar grupos con distintas medias o unidades.

Antes de empezar: construye siempre la tabla completa

Para calcular cualquier medida de dispersión en datos agrupados, es imprescindible tener previamente calculada la media aritmética \(\bar{x}\) del conjunto y contar con las columnas de marca de clase \(x_i\), frecuencia absoluta \(f_i\) y frecuencia acumulada \(F_i\). Si no tienes esos valores, calcula primero la media.

R
El rango para datos agrupados

¿Cómo se calcula?

Para datos agrupados, el rango se calcula como la diferencia entre el límite superior del último intervalo y el límite inferior del primer intervalo. No se usan las marcas de clase, sino los extremos reales de la tabla.

Rango para datos agrupados

\[ R = L_{\text{sup,último}} – L_{\text{inf,primero}} \]

donde \(L_{\text{sup,último}}\) es el límite superior del último intervalo y \(L_{\text{inf,primero}}\) es el límite inferior del primer intervalo.

Limitación del rango en datos agrupados. Al usar los extremos de los intervalos, el rango puede sobreestimar la dispersión real: los extremos del primer y último intervalo pueden no ser datos reales, sino solo límites del agrupamiento. Por eso la varianza y la desviación típica son siempre más informativas.

Ejemplo resuelto

Tiempos de entrega — Rango

Los tiempos de entrega (en días) de 50 pedidos se agruparon en: [1,4), [4,7), [7,10), [10,13), [13,16]. Calcula el rango.

Identificar los extremos de la tabla

Primer intervalo: [1, 4) → límite inferior = 1
Último intervalo: [13, 16] → límite superior = 16

Aplicar la fórmula

\[ R = L_{\text{sup,último}} – L_{\text{inf,primero}} = 16 – 1 = 15 \text{ días} \]

Interpretación

Los tiempos de entrega abarcan un rango de 15 días. Esto indica que existe una variabilidad considerable entre el pedido más rápido y el más lento. El rango no nos dice nada sobre cómo se distribuyen los pedidos dentro de ese intervalo, para eso necesitamos la varianza.

Resultado

\( R = 16 – 1 = 15 \text{ días} \)

\(\sigma^2\)
La varianza para datos agrupados

La fórmula y su lectura

La varianza para datos agrupados sigue la misma lógica que para datos sin agrupar: es el promedio ponderado de las desviaciones al cuadrado. La diferencia es que, en lugar de usar cada dato individual, usamos la marca de clase de su intervalo, ponderada por la frecuencia de ese intervalo.

Varianza para datos agrupados — Fórmula directa

\[ \sigma^2 = \frac{\displaystyle\sum_{i=1}^{k} f_i \cdot (x_i – \bar{x})^2}{n} \]

donde \(x_i\) es la marca de clase del intervalo \(i\), \(f_i\) su frecuencia absoluta, \(\bar{x}\) la media y \(n = \sum f_i\) el total de datos.

Fórmula alternativa (más rápida de calcular)

\[ \sigma^2 = \frac{\displaystyle\sum_{i=1}^{k} f_i \cdot x_i^2}{n} – \bar{x}^2 = \overline{x^2} – \bar{x}^2 \]

Ambas fórmulas son matemáticamente equivalentes. La alternativa evita calcular \((x_i – \bar{x})^2\) para cada intervalo: solo necesitas \(f_i \cdot x_i^2\).

Cómo construir la tabla de trabajo

La tabla de trabajo para la varianza requiere las siguientes columnas. Cada columna adicional se construye sobre las anteriores.

Columna	Cómo se obtiene	Para qué sirve
Intervalo	Dado en el enunciado	Define cada grupo
Marca de clase \(x_i\)	\((L_i + L_{i+1})/2\)	Representa el intervalo
Frecuencia \(f_i\)	Dada en el enunciado	Ponderación
Desviación \((x_i – \bar{x})\)	Marca de clase menos media	Diferencia respecto al centro
Desviación cuadrada \((x_i – \bar{x})^2\)	Cuadrado de la columna anterior	Elimina signos negativos
\(f_i(x_i – \bar{x})^2\)	Producto frecuencia × desv. cuadrada	Suma para obtener el numerador

Ejemplo resuelto — Varianza de tiempos de entrega

Tiempos de entrega — Varianza con tabla de trabajo

Los tiempos de entrega (días) de 50 pedidos se distribuyeron así: [1,4): 8 pedidos; [4,7): 15 pedidos; [7,10): 18 pedidos; [10,13): 6 pedidos; [13,16]: 3 pedidos. Calcula la varianza.

Calcular la media (paso previo imprescindible)

Primero construimos las marcas de clase y los productos \(f_i \cdot x_i\).

Intervalo	\(x_i\)	\(f_i\)	\(f_i \cdot x_i\)
[1, 4)	2,5	8	20
[4, 7)	5,5	15	82,5
[7, 10)	8,5	18	153
[10, 13)	11,5	6	69
[13, 16]	14,5	3	43,5
Totales	—	50	368

\[ \bar{x} = \frac{368}{50} = 7{,}36 \text{ días} \]

Construir la tabla de trabajo para la varianza

Para cada intervalo: calcula la desviación \((x_i – \bar{x})\), elévala al cuadrado y multiplica por \(f_i\).

\(x_i\)	\(f_i\)	\((x_i – 7{,}36)\)	\((x_i – 7{,}36)^2\)	\(f_i(x_i-7{,}36)^2\)
2,5	8	\(2{,}5-7{,}36=-4{,}86\)	\((-4{,}86)^2=23{,}62\)	\(8\times23{,}62=188{,}93\)
5,5	15	\(5{,}5-7{,}36=-1{,}86\)	\((-1{,}86)^2=3{,}46\)	\(15\times3{,}46=51{,}85\)
8,5	18	\(8{,}5-7{,}36=1{,}14\)	\((1{,}14)^2=1{,}30\)	\(18\times1{,}30=23{,}38\)
11,5	6	\(11{,}5-7{,}36=4{,}14\)	\((4{,}14)^2=17{,}14\)	\(6\times17{,}14=102{,}82\)
14,5	3	\(14{,}5-7{,}36=7{,}14\)	\((7{,}14)^2=50{,}98\)	\(3\times50{,}98=152{,}94\)
Sumas	50	0	—	519{,}92

Calcular la varianza

\[ \sigma^2 = \frac{\sum f_i(x_i-\bar{x})^2}{n} = \frac{519{,}92}{50} = 10{,}40 \text{ días}^2 \]

Verificación con la fórmula alternativa

\( \sum f_i x_i^2 = 8(2{,}5)^2+15(5{,}5)^2+18(8{,}5)^2+6(11{,}5)^2+3(14{,}5)^2 \)

\( = 50+453{,}75+1300{,}5+793{,}5+632{,}25 = 3230 \)

\( \sigma^2 = \frac{3230}{50} – (7{,}36)^2 = 64{,}60 – 54{,}17 = 10{,}43 \approx 10{,}40 \quad\checkmark \)

La pequeña diferencia (10,40 vs 10,43) se debe al redondeo de la media a dos decimales.

Interpretación

La varianza es 10,40 días², pero sus unidades al cuadrado dificultan la interpretación directa. Necesitamos calcular la desviación típica para tener un valor comparable con los datos originales.

Resultado

\( \sigma^2 = \dfrac{519{,}92}{50} \approx 10{,}40 \text{ días}^2 \)

\(\sigma\)
La desviación típica para datos agrupados

Fórmula

La desviación típica es directamente la raíz cuadrada de la varianza. Al extraer la raíz, el resultado queda en las mismas unidades que los datos (en el ejemplo anterior, en días), lo que facilita mucho su interpretación.

Desviación típica para datos agrupados

\[ \sigma = \sqrt{\sigma^2} = \sqrt{\frac{\displaystyle\sum f_i(x_i-\bar{x})^2}{n}} \]

Continuación del ejemplo — Desviación típica

Tiempos de entrega — Desviación típica e interpretación

Con \(\sigma^2 \approx 10{,}40\) días² calculada en el ejemplo anterior, halla la desviación típica e interprétala.

Calcular la raíz cuadrada de la varianza

\[ \sigma = \sqrt{10{,}40} \approx 3{,}22 \text{ días} \]

La desviación típica ya tiene las mismas unidades que los datos

Media: 7,36 días · Desviación típica: 3,22 días

\[ \bar{x} \pm \sigma \Rightarrow [7{,}36 – 3{,}22,\; 7{,}36 + 3{,}22] = [4{,}14,\; 10{,}58] \text{ días} \]

Interpretación

Los tiempos de entrega tienen una media de 7,36 días con una desviación típica de 3,22 días. La mayoría de los pedidos (alrededor del 68% si la distribución es aproximadamente normal) se entrega entre 4,1 y 10,6 días. Una desviación de 3,22 días sobre una media de 7,36 representa una variabilidad considerable del 43,8%, lo que indica que los tiempos de entrega son bastante irregulares.

Resultado

\( \sigma = \sqrt{10{,}40} \approx 3{,}22 \text{ días} \)

CV
El coeficiente de variación

El coeficiente de variación (CV) expresa la desviación típica como porcentaje de la media. Es especialmente útil para comparar la dispersión entre dos distribuciones con medias o unidades diferentes.

Coeficiente de variación

\[ CV = \frac{\sigma}{\bar{x}} \times 100\% \]

El resultado es adimensional (sin unidades). Permite comparar la variabilidad relativa entre cualquier tipo de conjunto.

Regla de interpretación del CV.
CV < 15%: dispersión baja, grupo homogéneo.
CV entre 15% y 30%: dispersión moderada.
CV > 30%: dispersión alta, grupo heterogéneo.

Ejemplo resuelto — CV de tiempos de entrega

Tiempos de entrega — Coeficiente de variación

Con \(\bar{x} = 7{,}36\) días y \(\sigma \approx 3{,}22\) días, calcula el CV e interpreta el nivel de homogeneidad del servicio.

Aplicar la fórmula

\[ CV = \frac{\sigma}{\bar{x}} \times 100 = \frac{3{,}22}{7{,}36} \times 100 \approx 43{,}8\% \]

Interpretar según la escala del CV

\[ CV \approx 43{,}8\% > 30\% \quad\Rightarrow\quad \text{Dispersión alta — servicio muy irregular} \]

Interpretación

Un CV del 43,8% indica que los tiempos de entrega son altamente irregulares: la desviación típica representa casi la mitad de la media. Esto significa que el servicio de entrega tiene muy poca consistencia. Para mejorar la calidad del servicio, sería necesario reducir la variabilidad, no solo la media.

Resultado

\( CV \approx 43{,}8\% \) — Dispersión alta

E
Ejemplo completo — Todas las medidas juntas

A continuación se resuelven todas las medidas de dispersión sobre un conjunto de datos nuevo, siguiendo el proceso completo desde la tabla de trabajo hasta el resumen de resultados.

Notas de bachillerato — Análisis completo de dispersión

Las notas (sobre 10) de 60 alumnos de bachillerato se agruparon así: [0,2): 2 alumnos; [2,4): 8 alumnos; [4,6): 20 alumnos; [6,8): 22 alumnos; [8,10]: 8 alumnos. Calcula el rango, la varianza, la desviación típica y el coeficiente de variación.

Rango

Límite inferior del primer intervalo: 0 · Límite superior del último: 10

\[ R = 10 – 0 = 10 \text{ puntos} \]

Tabla maestra — media y varianza en un solo paso

Esta tabla única calcula simultáneamente todos los productos necesarios para la media y la varianza.

Intervalo	\(x_i\)	\(f_i\)	\(f_i x_i\)	\(x_i^2\)	\(f_i x_i^2\)
[0, 2)	1	2	2	1	2
[2, 4)	3	8	24	9	72
[4, 6)	5	20	100	25	500
[6, 8)	7	22	154	49	1.078
[8, 10]	9	8	72	81	648
Totales	—	60	352	—	2.300

Calcular la media

\[ \bar{x} = \frac{\sum f_i x_i}{n} = \frac{352}{60} \approx 5{,}867 \text{ puntos} \]

Calcular la varianza con la fórmula alternativa

\[ \sigma^2 = \frac{\sum f_i x_i^2}{n} – \bar{x}^2 = \frac{2.300}{60} – (5{,}867)^2 \]

\[ \sigma^2 = 38{,}33 – 34{,}42 = 3{,}91 \text{ puntos}^2 \]

Calcular la desviación típica

\[ \sigma = \sqrt{3{,}91} \approx 1{,}98 \text{ puntos} \]

Calcular el coeficiente de variación

\[ CV = \frac{1{,}98}{5{,}867} \times 100 \approx 33{,}7\% \]

Interpretación completa

Las notas abarcan todo el rango posible (de 0 a 10). La nota media es 5,87 puntos, con una desviación típica de 1,98 puntos, lo que significa que la mayoría de los alumnos obtiene entre 3,9 y 7,9 puntos. El coeficiente de variación del 33,7% indica dispersión alta: hay bastante heterogeneidad en el rendimiento académico del grupo, con alumnos tanto en niveles bajos como altos.

Resumen de resultados

\( R=10 \quad \bar{x}\approx5{,}87 \quad \sigma^2\approx3{,}91 \quad \sigma\approx1{,}98 \quad CV\approx33{,}7\% \)

Resumen de todas las fórmulas para datos agrupados

Marca de clase

\( x_i = \dfrac{L_i+L_{i+1}}{2} \)

Media

\( \bar{x} = \dfrac{\sum f_i x_i}{n} \)

Rango

\( R = L_{\sup,k} – L_{\inf,1} \)

Varianza (directa)

\( \sigma^2 = \dfrac{\sum f_i(x_i-\bar{x})^2}{n} \)

Varianza (alternativa)

\( \sigma^2 = \dfrac{\sum f_i x_i^2}{n} – \bar{x}^2 \)

Desviación típica

\( \sigma = \sqrt{\sigma^2} \)

Coef. variación

\( CV = \dfrac{\sigma}{\bar{x}} \times 100\% \)

≠
Comparar la dispersión de dos grupos

Una de las aplicaciones más útiles de las medidas de dispersión es comparar la variabilidad de dos grupos distintos. Si los grupos tienen medias o unidades diferentes, la comparación debe hacerse siempre con el coeficiente de variación.

Dos sucursales — Comparar dispersión de ventas

Sucursal A: media de ventas diarias 850 €, desviación típica 120 €. Sucursal B: media de ventas diarias 2.400 €, desviación típica 280 €. ¿Cuál sucursal tiene ventas más uniformes en términos relativos?

Comparar desviaciones típicas directamente no es válido

La desviación de B (280 €) es mayor que la de A (120 €), pero la media de B también es casi tres veces mayor. La comparación directa no es justa.

Calcular el CV de la sucursal A

\[ CV_A = \frac{120}{850} \times 100 \approx 14{,}1\% \]

Calcular el CV de la sucursal B

\[ CV_B = \frac{280}{2.400} \times 100 \approx 11{,}7\% \]

Comparar e interpretar

\[ CV_B = 11{,}7\% < CV_A = 14{,}1\% \quad\Rightarrow\quad \text{La sucursal B tiene ventas más uniformes} \]

Interpretación

Aunque la sucursal B tiene una mayor desviación absoluta (280 € frente a 120 €), en términos relativos es más uniforme: su CV del 11,7% está por debajo del umbral del 15% (dispersión baja), mientras que el CV del 14,1% de la sucursal A también es bajo pero algo mayor. La sucursal B factura más y con mayor consistencia relativa.

Conclusión

La sucursal B es más homogénea: \(CV_B = 11{,}7\% < CV_A = 14{,}1\%\)

Tabla comparativa de las medidas

Medida	Fórmula clave	Unidades	Compara grupos distintos	Sensible a atípicos
Rango	\(L_{\sup} – L_{\inf}\)	Mismas que datos	No	Muy alta
Varianza	\(\dfrac{\sum f_i(x_i-\bar{x})^2}{n}\)	Unidades²	No directamente	Alta
Desv. típica	\(\sqrt{\sigma^2}\)	Mismas que datos	Solo con misma media	Alta
Coef. variación	\(\dfrac{\sigma}{\bar{x}}\times100\%\)	Sin unidades (%)	Siempre	Alta

!
Errores comunes

ERROR 1

Usar el límite del intervalo en lugar de la marca de clase en la varianza

Incorrecto

[4,7): se usa 4
\(\sigma^2=\sum f_i(4-\bar{x})^2/n\)

Utilizan el límite inferior del intervalo (4) en lugar de la marca de clase (5,5), lo que produce una varianza sistemáticamente incorrecta.

Correcto

[4,7): se usa 5,5
\(x_i=(4+7)/2=5{,}5\)

La varianza usa la marca de clase (punto medio del intervalo) en todas las columnas de cálculo.

Regla: en datos agrupados, toda operación aritmética (media, varianza, etc.) usa la marca de clase \(x_i = (L_i + L_{i+1})/2\), nunca los límites por separado.

ERROR 2

Olvidar ponderar por la frecuencia al calcular la varianza

Incorrecto

\(\sigma^2=\dfrac{\sum(x_i-\bar{x})^2}{k}\)
(divide entre el nº de intervalos)

Suman las desviaciones al cuadrado y dividen entre k (número de intervalos) sin ponderar por las frecuencias. Esto da el mismo peso a intervalos con 2 datos y a intervalos con 50 datos.

Correcto

\(\sigma^2=\dfrac{\sum f_i(x_i-\bar{x})^2}{n}\)
(divide entre el total de datos)

Cada desviación se multiplica por \(f_i\) (su frecuencia) y se divide entre n (total de datos), no entre k (número de intervalos).

La varianza es un promedio ponderado. La ponderación es la frecuencia \(f_i\) y el total es \(n = \sum f_i\), no el número de intervalos \(k\).

ERROR 3

Comparar la dispersión de dos grupos con distintas medias usando solo la desviación típica

Incorrecto

\(\sigma_A=120 > \sigma_B=80\)
«A es más disperso»

Si la media de A es 1.000 y la de B es 100, la comparación directa de desviaciones es engañosa.

Correcto

\(CV_A=12\% < CV_B=80\%\)
«B es mucho más disperso»

El coeficiente de variación hace comparables dos grupos con medias o escalas distintas.

Cuando las medias son distintas, siempre usa el CV para comparar dispersión. La desviación típica solo es directamente comparable si las medias son iguales o muy similares.

?
Preguntas frecuentes

¿La fórmula alternativa de la varianza (\(\overline{x^2} – \bar{x}^2\)) funciona exactamente igual para datos agrupados?

▼

Sí, matemáticamente es equivalente a la fórmula directa. La demostración es la misma que para datos sin agrupar, solo que con el sumatorio ponderado por \(f_i\):

\[ \sigma^2 = \frac{\sum f_i(x_i-\bar{x})^2}{n} = \frac{\sum f_i x_i^2}{n} – \bar{x}^2 \]

La ventaja práctica es que evita calcular la diferencia \((x_i – \bar{x})\) para cada intervalo. En su lugar, solo necesitas la columna \(f_i \cdot x_i^2\), que a menudo es más rápida de calcular.

Atención: si la media se ha redondeado, la fórmula alternativa puede dar un resultado ligeramente distinto al directo. Esto no es un error, sino una consecuencia del redondeo. Con la media exacta, ambas fórmulas dan el mismo resultado.

¿La desviación típica para datos agrupados siempre es mayor que para los mismos datos sin agrupar?

▼

No necesariamente, pero en general la agrupación introduce una imprecisión en el cálculo de la varianza, ya que se sustituyen los valores individuales por las marcas de clase de sus intervalos.

Si los datos reales dentro de un intervalo están concentrados cerca de la marca de clase, la diferencia es mínima. Si están más cerca de los extremos del intervalo, la varianza calculada con marcas de clase puede diferir algo de la varianza real.

En estadística descriptiva de bachillerato, esta imprecisión se acepta como parte del proceso de agrupación. La varianza para datos agrupados es una estimación de la varianza real, igual que la media para datos agrupados es una estimación de la media real.

¿Qué ocurre con la varianza si añado o multiplico una constante a todas las marcas de clase?

▼

Las mismas propiedades que para datos sin agrupar se aplican también a datos agrupados, porque las fórmulas tienen la misma estructura matemática:

Si sumas una constante k a todas las marcas de clase: la media aumenta en k, pero la varianza y la desviación típica no cambian, porque las diferencias \((x_i – \bar{x})\) permanecen iguales.

\[ \sigma^2_{\text{nuevo}} = \sigma^2 \qquad \sigma_{\text{nuevo}} = \sigma \]

Si multiplicas todas las marcas de clase por una constante k: la varianza se multiplica por k², y la desviación típica por |k|.

\[ \sigma^2_{\text{nuevo}} = k^2 \cdot \sigma^2 \qquad \sigma_{\text{nuevo}} = |k| \cdot \sigma \]

Esta propiedad es muy útil para cambiar de unidades (por ejemplo, de centímetros a metros) sin recalcular toda la tabla de trabajo.

¿Cuándo es más conveniente usar la fórmula directa de la varianza y cuándo la alternativa?

▼

Fórmula directa \(\left(\sigma^2 = \dfrac{\sum f_i(x_i-\bar{x})^2}{n}\right)\): es más intuitiva y facilita entender qué significa la varianza. Se recomienda cuando las desviaciones \((x_i – \bar{x})\) son números pequeños y fáciles de elevar al cuadrado.

Fórmula alternativa \(\left(\sigma^2 = \dfrac{\sum f_i x_i^2}{n} – \bar{x}^2\right)\): es más rápida de calcular cuando las marcas de clase son números grandes o cuando ya tienes calculada la columna \(f_i x_i\) para la media (solo necesitas añadir \(f_i x_i^2\)).

En un examen con calculadora, la fórmula alternativa suele ser más eficiente porque evita calcular múltiples restas y cuadrados. En papel, la directa permite revisar mejor si se ha cometido algún error.

¿La suma de la columna de desviaciones \((x_i – \bar{x})\) debe ser cero también en datos agrupados?

▼

La suma de las desviaciones ponderadas \(\sum f_i(x_i – \bar{x})\) siempre es cero, igual que para datos sin agrupar. Esto es una consecuencia directa de la definición de la media:

\[ \sum f_i(x_i – \bar{x}) = \sum f_i x_i – \bar{x} \sum f_i = n\bar{x} – \bar{x}\cdot n = 0 \]

Sin embargo, la suma de las desviaciones sin ponderar \(\sum (x_i – \bar{x})\) no tiene por qué ser cero, porque cada intervalo tiene distinto peso.

Esto sirve como verificación de la tabla: si la suma de la columna \(f_i(x_i – \bar{x})\) no es cero (o muy cercana a cero por redondeos), hay un error en el cálculo de la media o de las desviaciones.