media, mediana y moda (Datos agrupados) con 10 ejemplos

Cuando los datos son muchos y se agrupan en intervalos, las fórmulas cambian. Aprende a calcular las tres medidas de tendencia central con tablas de frecuencias agrupadas, paso a paso y con interpretación de cada resultado.

Tabla de Contenidos

Estadística Descriptiva — Datos agrupados en intervalos

Media, mediana y moda para datos agrupados

¿Por qué agrupar los datos en intervalos?

Imagina que tienes las edades de 500 personas, los pesos de 300 atletas o las notas de 1.000 estudiantes. Trabajar con cada dato individual sería inmanejable. La solución es agrupar los datos en intervalos y resumir la información con una tabla de frecuencias.

Datos sin agrupar (difícil de analizar)

168, 172, 175, 163, 180, 171, 169, 177, 174, 166, 182, 170, 173, 165, 178, 176, 171, 183, 167, 179 cm…

Con 200 datos, es imposible ver la tendencia a simple vista.

Los mismos datos agrupados (manejable)

[160,165): 12 personas
[165,170): 38 personas
[170,175): 74 personas
[175,180): 51 personas
[180,185): 25 personas

De un vistazo se ve la distribución.

Al agrupar los datos se pierde precisión individual, pero se gana visión global. Como ya no conocemos cada valor exacto dentro del intervalo, las fórmulas de la media, la mediana y la moda deben adaptarse. El punto clave es el concepto de marca de clase.

Marca de clase (\(x_i\)). Es el punto medio de cada intervalo. Se usa para representar a todos los datos que caen dentro de ese intervalo, ya que no conocemos sus valores exactos. \[ x_i = \frac{L_i + L_{i+1}}{2} \] donde \(L_i\) es el límite inferior del intervalo y \(L_{i+1}\) es el límite superior.

Amplitud del intervalo (\(a\)). Es la longitud de cada intervalo: \( a = L_{i+1} – L_i \). En la mayoría de los ejercicios todos los intervalos tienen la misma amplitud, lo que simplifica los cálculos.

La tabla de frecuencias para datos agrupados

Antes de calcular cualquier medida, hay que construir la tabla de frecuencias completa. Para datos agrupados, esta tabla tiene más columnas que para datos sin agrupar, porque cada columna adicional es necesaria para alguna de las fórmulas.

Columnas de la tabla y su utilidad

Columna	Símbolo	Cómo se obtiene	Para qué sirve
Intervalo	\([L_i,\, L_{i+1})\)	Se dan en el enunciado	Define los grupos
Marca de clase	\(x_i\)	\(\dfrac{L_i + L_{i+1}}{2}\)	Representa el intervalo en la media
Frec. absoluta	\(f_i\)	Se dan en el enunciado o se cuentan	Base de todos los cálculos
Frec. absoluta acumulada	\(F_i\)	\(F_i = F_{i-1} + f_i\)	Necesaria para la mediana
Frec. relativa	\(h_i\)	\(h_i = f_i / n\)	Proporciones y porcentajes
Producto \(f_i \cdot x_i\)	\(f_i x_i\)	Frecuencia por marca de clase	Necesario para la media

Notación de los intervalos

El intervalo \([a, b)\) significa que incluye el valor \(a\) pero no el \(b\). El intervalo \([a, b]\) incluye ambos extremos. En estadística descriptiva de bachillerato se usan ambas notaciones indistintamente y no cambia el cálculo.

La media aritmética para datos agrupados

¿Cómo cambia la fórmula?

Para datos individuales, la media se calculaba sumando todos los valores y dividiendo entre n. Para datos agrupados, como no conocemos los valores exactos de cada dato, los sustituimos por la marca de clase del intervalo al que pertenecen. La fórmula pasa a ser una media ponderada.

Media aritmética para datos agrupados

\[ \bar{x} = \frac{\displaystyle\sum_{i=1}^{k} f_i \cdot x_i}{\displaystyle\sum_{i=1}^{k} f_i} = \frac{\sum f_i \cdot x_i}{n} \]

donde \(x_i\) es la marca de clase del intervalo \(i\), \(f_i\) es su frecuencia absoluta y \(n = \sum f_i\) es el total de datos.

Ejemplo resuelto — Media de alturas

Alturas de estudiantes — Media con tabla

Se midió la altura (en cm) de 40 estudiantes y se obtuvieron los siguientes intervalos. Calcula la media aritmética.

Construir la tabla con la marca de clase y el producto \(f_i \cdot x_i\)

La marca de clase \(x_i\) es el punto medio del intervalo: \(x_i = (L_i + L_{i+1})/2\). El producto \(f_i \cdot x_i\) se obtiene multiplicando cada frecuencia por su marca de clase correspondiente.

Intervalo	Marca de clase \(x_i = \frac{L_i+L_{i+1}}{2}\)	Frec. absoluta \(f_i\)	Producto \(f_i \cdot x_i\)
[155, 160)	\(\frac{155+160}{2} = 157{,}5\)	3	\(3 \times 157{,}5 = 472{,}5\)
[160, 165)	\(\frac{160+165}{2} = 162{,}5\)	7	\(7 \times 162{,}5 = 1.137{,}5\)
[165, 170)	\(\frac{165+170}{2} = 167{,}5\)	14	\(14 \times 167{,}5 = 2.345\)
[170, 175)	\(\frac{170+175}{2} = 172{,}5\)	10	\(10 \times 172{,}5 = 1.725\)
[175, 180)	\(\frac{175+180}{2} = 177{,}5\)	6	\(6 \times 177{,}5 = 1.065\)
Totales	—	40	6.745

Aplicar la fórmula de la media

\[ \bar{x} = \frac{\sum f_i \cdot x_i}{n} = \frac{6.745}{40} = 168{,}625 \text{ cm} \]

Interpretación

La altura media de los 40 estudiantes es aproximadamente 168,6 cm. Este valor es una estimación: al usar las marcas de clase asumimos que todos los datos dentro de un intervalo están en su punto medio, lo que introduce una pequeña imprecisión.

Resultado

\( \bar{x} = \dfrac{6.745}{40} = 168{,}625 \text{ cm} \)

La mediana para datos agrupados

¿Cómo se calcula?

Para datos agrupados, la mediana no se obtiene leyendo un dato de una posición concreta, sino mediante interpolación lineal dentro del intervalo mediano. La idea es localizar primero el intervalo donde cae la mitad de los datos y luego estimar el valor exacto dentro de ese intervalo.

Pasos para encontrar la mediana

Calcular la frecuencia acumulada \(F_i\) de cada intervalo

Suma progresiva de las frecuencias: \(F_i = f_1 + f_2 + \cdots + f_i\)

Localizar el intervalo mediano

Es el primer intervalo cuya frecuencia acumulada \(F_i\) supera o iguala \(n/2\).

Aplicar la fórmula de interpolación

Una vez localizado el intervalo mediano \([L_m, L_m + a)\), se usa la fórmula de la mediana por interpolación.

Mediana para datos agrupados — Interpolación lineal

\[ Me = L_m + a \cdot \frac{\dfrac{n}{2} – F_{m-1}}{f_m} \]

donde: \(L_m\) = límite inferior del intervalo mediano · \(a\) = amplitud del intervalo · \(n\) = total de datos · \(F_{m-1}\) = frecuencia acumulada hasta el intervalo anterior al mediano · \(f_m\) = frecuencia absoluta del intervalo mediano

Lectura de la fórmula. La fórmula dice: «empieza en el límite inferior del intervalo mediano (\(L_m\)) y avanza dentro de ese intervalo una fracción proporcional a los datos que aún nos faltan para llegar a la mitad total.»

Ejemplo resuelto — Mediana de alturas

Alturas de estudiantes — Mediana con interpolación

Con los mismos datos del ejemplo E1 (n = 40 estudiantes), calcula la mediana.

Añadir la columna de frecuencias acumuladas \(F_i\)

Intervalo	\(f_i\)	\(F_i = F_{i-1}+f_i\)
[155, 160)	3	3
[160, 165)	7	10
[165, 170)	14	24 ← supera n/2 = 20
[170, 175)	10	34
[175, 180)	6	40

Localizar el intervalo mediano

\(n/2 = 40/2 = 20\). La frecuencia acumulada supera 20 por primera vez en el intervalo [165, 170), donde \(F_3 = 24\).
El intervalo mediano es [165, 170).

Identificar los valores para la fórmula

\( L_m = 165 \quad a = 5 \quad n = 40 \quad F_{m-1} = F_2 = 10 \quad f_m = 14 \)

Aplicar la fórmula

\[ Me = L_m + a \cdot \frac{\dfrac{n}{2} – F_{m-1}}{f_m} = 165 + 5 \cdot \frac{20 – 10}{14} \]

\[ Me = 165 + 5 \cdot \frac{10}{14} = 165 + \frac{50}{14} = 165 + 3{,}571 \approx 168{,}57 \text{ cm} \]

Interpretación

La mediana es 168,57 cm. Eso significa que la mitad de los estudiantes mide menos de 168,57 cm y la otra mitad mide más. La mediana (168,57 cm) es muy similar a la media (168,63 cm) calculada en el ejemplo anterior, lo que indica que la distribución es bastante simétrica.

Resultado

\( Me = 165 + 5 \cdot \dfrac{10}{14} \approx 168{,}57 \text{ cm} \)

La moda para datos agrupados

¿Cómo cambia?

Para datos individuales, la moda era simplemente el valor que más se repetía. Para datos agrupados, primero se identifica el intervalo modal (el de mayor frecuencia) y luego se estima el valor más probable dentro de ese intervalo usando la fórmula de Czuber.

Intervalo modal. Es el intervalo con la mayor frecuencia absoluta. En distribuciones unimodales hay uno solo; si hay empate, la distribución puede ser bimodal.

Moda para datos agrupados — Fórmula de Czuber

\[ Mo = L_m + a \cdot \frac{d_1}{d_1 + d_2} \]

donde: \(L_m\) = límite inferior del intervalo modal · \(a\) = amplitud del intervalo · \(d_1 = f_m – f_{m-1}\) = diferencia entre la frecuencia del intervalo modal y la del anterior · \(d_2 = f_m – f_{m+1}\) = diferencia entre la frecuencia del intervalo modal y la del siguiente

Lectura de la fórmula de Czuber. La moda se desplaza desde el límite inferior del intervalo modal hacia la derecha, en una proporción que depende de cuánto «sube» la frecuencia al llegar al intervalo modal y cuánto «baja» al salir de él. Si \(d_1 > d_2\), la moda está más cerca del límite inferior; si \(d_1 < d_2\), más cerca del límite superior.

Ejemplo resuelto — Moda de alturas

Alturas de estudiantes — Moda con fórmula de Czuber

Con los datos de los ejemplos anteriores, calcula la moda.

Identificar el intervalo modal

Las frecuencias son: 3, 7, 14, 10, 6. La mayor es 14, en el intervalo [165, 170).

Calcular \(d_1\) y \(d_2\)

\[ d_1 = f_m – f_{m-1} = 14 – 7 = 7 \]

\[ d_2 = f_m – f_{m+1} = 14 – 10 = 4 \]

Aplicar la fórmula de Czuber

\[ Mo = L_m + a \cdot \frac{d_1}{d_1 + d_2} = 165 + 5 \cdot \frac{7}{7 + 4} = 165 + 5 \cdot \frac{7}{11} \]

\[ Mo = 165 + \frac{35}{11} = 165 + 3{,}18 \approx 168{,}18 \text{ cm} \]

Interpretación

La moda es 168,18 cm. La moda se desplaza más hacia el lado donde la frecuencia «sube más» (\(d_1 = 7 > d_2 = 4\)), acercándose al límite inferior del intervalo modal. Las tres medidas son muy parecidas: \(\bar{x} \approx 168{,}63\), \(Me \approx 168{,}57\) y \(Mo \approx 168{,}18\), lo que confirma la simetría de la distribución.

Resultado

\( Mo = 165 + 5 \cdot \dfrac{7}{11} \approx 168{,}18 \text{ cm} \)

Ejemplo completo — Las tres medidas con una tabla nueva

A continuación se resuelven las tres medidas sobre un conjunto de datos distinto, siguiendo el proceso completo desde la construcción de la tabla hasta la interpretación final.

Tiempos de respuesta — Media, mediana y moda completas

Se registraron los tiempos de respuesta (en segundos) de 60 llamadas a un servicio de atención al cliente. Los datos se agruparon en los siguientes intervalos. Calcula la media, la mediana y la moda.

Construir la tabla de frecuencias completa

Se añaden todas las columnas necesarias: marca de clase, frecuencia acumulada y producto para la media.

Intervalo	\(x_i\)	\(f_i\)	\(F_i\)	\(f_i \cdot x_i\)
[0, 20)	\(\frac{0+20}{2}=10\)	6	6	\(6\times10=60\)
[20, 40)	\(\frac{20+40}{2}=30\)	14	20	\(14\times30=420\)
[40, 60)	\(\frac{40+60}{2}=50\)	22	42	\(22\times50=1.100\)
[60, 80)	\(\frac{60+80}{2}=70\)	12	54	\(12\times70=840\)
[80, 100]	\(\frac{80+100}{2}=90\)	6	60	\(6\times90=540\)
Totales	—	60	—	2.960

La fila resaltada en amarillo indica el intervalo con mayor frecuencia (modal) y donde también se ubica la mediana.

Calcular la MEDIA

\[ \bar{x} = \frac{\sum f_i \cdot x_i}{n} = \frac{2.960}{60} \approx 49{,}33 \text{ segundos} \]

Calcular la MEDIANA — localizar el intervalo mediano

\(n/2 = 60/2 = 30\). La frecuencia acumulada supera 30 en el intervalo [40, 60) donde \(F_3 = 42\).
Datos para la fórmula: \(L_m = 40\), \(a = 20\), \(F_{m-1} = F_2 = 20\), \(f_m = 22\)

\[ Me = 40 + 20 \cdot \frac{30 – 20}{22} = 40 + 20 \cdot \frac{10}{22} = 40 + \frac{200}{22} \approx 40 + 9{,}09 \approx 49{,}09 \text{ s} \]

Calcular la MODA — fórmula de Czuber

El intervalo modal es [40, 60) con \(f_m = 22\).
\(d_1 = 22 – 14 = 8\) · \(d_2 = 22 – 12 = 10\)

\[ Mo = 40 + 20 \cdot \frac{8}{8 + 10} = 40 + 20 \cdot \frac{8}{18} = 40 + \frac{160}{18} \approx 40 + 8{,}89 \approx 48{,}89 \text{ s} \]

Interpretación conjunta

Las tres medidas son muy similares entre sí: media = 49,33 s, mediana = 49,09 s, moda = 48,89 s. Esto indica una distribución bastante simétrica centrada alrededor de los 49 segundos. La mayoría de las llamadas se responden entre 40 y 60 segundos, que es el intervalo modal y también donde se ubica la mediana.

Resultados

\( \bar{x} \approx 49{,}33 \text{ s} \qquad Me \approx 49{,}09 \text{ s} \qquad Mo \approx 48{,}89 \text{ s} \)

Ejemplo adicional — Varianza y desviación típica para datos agrupados

Tiempos de respuesta — Varianza y desviación típica

Con los datos del ejemplo E4 (\(\bar{x} \approx 49{,}33\) s), calcula la varianza y la desviación típica.

Fórmula de la varianza para datos agrupados

\[ \sigma^2 = \frac{\sum f_i(x_i – \bar{x})^2}{n} \]

Tabla de trabajo para la varianza

Se añade la columna de desviaciones al cuadrado ponderadas por la frecuencia. El valor de \(\bar{x}\) se redondea a 49,33 para simplificar.

\(x_i\)	\(f_i\)	\(x_i – \bar{x}\)	\((x_i-\bar{x})^2\)	\(f_i(x_i-\bar{x})^2\)
10	6	\(10-49{,}33=-39{,}33\)	\(1.546{,}8\)	\(9.280{,}9\)
30	14	\(30-49{,}33=-19{,}33\)	\(373{,}6\)	\(5.230{,}8\)
50	22	\(50-49{,}33=0{,}67\)	\(0{,}45\)	\(9{,}87\)
70	12	\(70-49{,}33=20{,}67\)	\(427{,}3\)	\(5.127{,}3\)
90	6	\(90-49{,}33=40{,}67\)	\(1.654{,}0\)	\(9.924{,}0\)
Totales	60	—	—	29.572{,}9

Calcular varianza y desviación típica

\[ \sigma^2 = \frac{29.572{,}9}{60} \approx 492{,}9 \text{ s}^2 \]

\[ \sigma = \sqrt{492{,}9} \approx 22{,}2 \text{ segundos} \]

Interpretación

Los tiempos de respuesta se desvían en promedio 22,2 segundos respecto a la media (49,33 s). Eso significa que la mayoría de las llamadas se responde entre 27 y 72 segundos aproximadamente. Una desviación de 22 segundos sobre una media de 49 implica una variabilidad moderada-alta: hay bastante dispersión en los tiempos de atención.

Resultados

\( \sigma^2 \approx 492{,}9 \text{ s}^2 \qquad \sigma \approx 22{,}2 \text{ s} \)

Resumen — Fórmulas para datos agrupados

Media

\( \bar{x} = \dfrac{\sum f_i x_i}{n} \)

Usa la marca de clase \(x_i\) como representante del intervalo.

Mediana

\( Me = L_m + a \cdot \dfrac{\frac{n}{2}-F_{m-1}}{f_m} \)

Interpolación dentro del intervalo mediano.

Moda (Czuber)

\( Mo = L_m + a \cdot \dfrac{d_1}{d_1+d_2} \)

\(d_1 = f_m – f_{m-1}\) · \(d_2 = f_m – f_{m+1}\)

Varianza

\( \sigma^2 = \dfrac{\sum f_i(x_i-\bar{x})^2}{n} \)

También: \(\sigma^2 = \overline{x^2} – \bar{x}^2\)

Marca de clase

\( x_i = \dfrac{L_i + L_{i+1}}{2} \)

Punto medio de cada intervalo.

Errores comunes

ERROR 1

Usar el límite del intervalo en lugar de la marca de clase para la media

Incorrecto

[40,60): se usa 40
\(\bar{x} = \sum f_i \cdot L_i / n\)

Usan el límite inferior del intervalo (40) en lugar de la marca de clase (50), lo que da un valor sistemáticamente más bajo.

Correcto

[40,60): se usa 50
\(x_i = (40+60)/2 = 50\)

La marca de clase es el punto medio del intervalo y representa a todos los datos dentro de él.

La marca de clase siempre es la media entre los dos límites: \(x_i = (L_i + L_{i+1})/2\). Nunca se usa solo un extremo.

ERROR 2

Usar la frecuencia del intervalo anterior incorrecta en la fórmula de la mediana

Incorrecto

Usan \(F_m\) (acumulada del propio intervalo mediano) en lugar de \(F_{m-1}\)

Confunden la frecuencia acumulada hasta el intervalo mediano con la frecuencia acumulada hasta el intervalo anterior a él.

Correcto

Usar \(F_{m-1}\): acumulada del intervalo ANTERIOR al mediano

La fórmula necesita cuántos datos ya quedaron por debajo del intervalo mediano, no cuántos hay dentro de él.

\(F_{m-1}\) es la frecuencia acumulada justo antes del intervalo mediano. Si el intervalo mediano es el 3.º, \(F_{m-1} = F_2\), es decir, la suma de los dos primeros intervalos.

ERROR 3

Calcular mal \(d_1\) y \(d_2\) en la fórmula de la moda

Incorrecto

\(d_1 = f_{m-1}\) y \(d_2 = f_{m+1}\)
(sin restar \(f_m\))

Usan directamente las frecuencias de los intervalos adyacentes en lugar de las diferencias con la frecuencia modal.

Correcto

\(d_1 = f_m – f_{m-1}\)
\(d_2 = f_m – f_{m+1}\)

\(d_1\) y \(d_2\) son diferencias: cuánto «sube» la frecuencia hasta el intervalo modal y cuánto «baja» al salir.

Verificación: si \(d_1 = d_2\), la moda queda exactamente en el centro del intervalo modal (\(L_m + a/2\)).

Preguntas frecuentes

¿La media obtenida para datos agrupados es exacta o aproximada?

▼

Siempre es una aproximación. Al agrupar los datos en intervalos, se pierde la información exacta de cada valor individual. Al usar la marca de clase como representante, se asume que todos los datos del intervalo están en su punto medio, lo cual raramente es exacto.

La imprecisión es mayor cuando los intervalos son más anchos. Con intervalos más estrechos (más grupos), la aproximación mejora.

Esta es la razón por la que en estadística descriptiva se suele indicar que la media para datos agrupados es una estimación de la media real. Si tuviéramos los datos originales sin agrupar, la media sería ligeramente distinta.

¿Qué ocurre si los intervalos no tienen todos la misma amplitud?

▼

Las fórmulas siguen funcionando exactamente igual. La amplitud \(a\) puede ser diferente en cada intervalo; simplemente hay que usar la amplitud del intervalo correspondiente en cada cálculo.

Para la media: no afecta, porque la marca de clase se calcula individualmente para cada intervalo con su propia amplitud.

Para la mediana: se usa la amplitud \(a\) del intervalo mediano en concreto.

Para la moda: se usa la amplitud \(a\) del intervalo modal. Los intervalos con mayor amplitud tienden a tener más frecuencia, por lo que a veces conviene usar la densidad de frecuencia (\(f_i / a_i\)) para identificar el verdadero intervalo modal.

En los problemas de bachillerato, los intervalos suelen tener amplitud constante para simplificar los cálculos. Cuando no es así, el enunciado lo indica explícitamente.

¿Puede calcularse la moda de datos agrupados si el primer o el último intervalo es el modal?

▼

Sí, pero con una adaptación. La fórmula de Czuber necesita un intervalo anterior y uno posterior al intervalo modal. Si el intervalo modal es el primero de la tabla, no hay intervalo anterior, por lo que se asume que \(f_0 = 0\) (frecuencia nula antes del primer intervalo). De la misma forma, si el modal es el último, \(f_{k+1} = 0\).

En esos casos:

Si el primer intervalo es el modal: \(d_1 = f_m – 0 = f_m\)

Si el último intervalo es el modal: \(d_2 = f_m – 0 = f_m\)

En la práctica, que el intervalo extremo sea el de mayor frecuencia es poco habitual y sugiere que la distribución está truncada o que la tabla no incluye todos los intervalos relevantes.

¿Por qué la media, la mediana y la moda dan valores distintos si los datos son los mismos?

▼

Porque cada fórmula aplica una lógica diferente dentro de los mismos datos:

La media usa todos los datos con su frecuencia y la marca de clase: es un promedio ponderado global.

La mediana usa la interpolación dentro del intervalo donde cae la mitad de los datos: busca el «corte» central de la distribución.

La moda solo mira el intervalo de mayor frecuencia y cómo «sube» y «baja» la frecuencia alrededor de él: busca el punto de máxima concentración.

Cuando los tres valores son muy parecidos, la distribución es aproximadamente simétrica. Cuando difieren mucho, la distribución es asimétrica y conviene analizar cuál de las tres medidas representa mejor el «dato típico» según el contexto.

¿Cómo sé cuántos intervalos usar al agrupar datos?

▼

No hay una regla fija, pero existen varias sugerencias prácticas:

Regla de Sturges: el número de intervalos \(k\) recomendado es \(k = 1 + 3{,}322 \cdot \log_{10}(n)\), donde n es el número de datos.

Para 40 datos: \(k \approx 1 + 3{,}322 \times \log_{10}(40) \approx 1 + 3{,}322 \times 1{,}60 \approx 6{,}3 \approx 6\) intervalos.

Regla práctica: entre 5 y 15 intervalos suele dar una buena representación. Menos de 5 pierde demasiado detalle; más de 15 resulta difícil de interpretar.

En los problemas de bachillerato, los intervalos ya están dados en el enunciado. La regla de Sturges se usa al construir la tabla desde cero cuando solo se tienen los datos crudos.

Cómo calcular media, mediana y moda (Datos agrupados) con 10 ejemplos paso a paso

Media, mediana y moda para datos agrupados

¿Por qué agrupar los datos en intervalos?