Los siguientes valores representan el número de correos electrónicos recibidos diariamente durante la primera quincena del mes $$1, 5, 3, 3, 5, 5, 5, 6, 1, 3, 1, 5, 6, 1, 5$$ ¿Cuál es el promedio diario de correos recibidos esa quincena? Hemos recibido \(55\) correos en \(15\) días, la media diaria es de \(55/15 \approx 3{,}667 \text{ correos}\)
La media aritmética de \(N\) valores \(x_1, \, x_2, \dots, \, x_N\) se define como su suma dividida por el número de ellos, es decir, $$ \overline x := \frac {x_1 + x_2 + \dots + x_N} {N} \tag{1}\label{eq1} $$ En algunas ocasiones esta fórmula se presenta bajo la forma $$x_1 + x_2 + \dots + x_N = N \cdot \overline x \tag{1a}\label{eq1a}$$ donde se puede leer que la suma de los valores es igual al número de ellos por su media. ¡Estaba aquí, en la suma de los valores!
Entre estos valores pueden aparecer repeticiones, pero para la definición esto no preocupa. ¿Qué sucede si incorporamos algún nuevo valor? ¿La media cambiará? Pues, nos atreveríamos a decir que sí, pero coja su calculadora y lance una conjetura.
Si a los \(\small {N}\) valores \(\small { x_1, \dots , x_N}\) les incorporamos otro igual a su media \(\small \overline x\), la suma de los \(\small {N+1}\) valores es: $$\small { \small \begin{align} \overline x +\left ( x_1 + x_2 + \dots + x_N \right ) &= \overline x + N \overline x \\ &=\left ( N + 1 \right ) \overline x \end{align} }$$ Y, en efecto, la nueva media no ha variado: $$\small {\frac {\overline x +\left ( x_1 + x_2 + \dots + x_N \right )}{N+1} = \overline x}$$
(Más abajo se presenta un cálculo más general)
Media aritmética ponderada
Agrupemos las observaciones que sean iguales. De los \(15\) valores observados, aislamos los cuatro que son distintos y contamos su frecuencia de aparición $$\require{cancel}\begin{align}1 \quad & \color{blue}{|\,|\,|\,|} \\ 3 \quad &\color{blue}{|\,|\,|} \\ 5 \quad &\color{blue}{\cancel{|\,|\,|\,|\,|}\,|} \\ 6 \quad &\color{blue}{|\,|}\end{align}$$ La suma de las observaciones es $$ { \bf \color{blue} 4} \cdot 1 + { \bf \color{blue}3} \cdot 3 + { \bf \color{blue}6} \cdot 5 + { \bf\color{blue}2} \cdot 6$$ y la media aritmética $$\frac { { \bf\color{blue}4} \cdot 1 + { \bf \color{blue}3} \cdot 3 + { \bf\color{blue}6} \cdot 5 + { \bf\color{blue}2} \cdot 6} { { \bf\color{blue}4} + { \bf\color{blue}3}+ { \bf\color{blue}6} + { \bf\color{blue}2} } \approx 3{,}667 \text{ correos}$$ Observe que el cálculo anterior puede expresarse de otra manera, dividiendo cada término del numerador por el número de observaciones: $$ \color{blue} {\bf \frac {4}{15}} \cdot 1 + \color{blue} {\bf \frac {3}{15}} \cdot 3 + \color{blue} {\bf \frac {6}{15}} \cdot 5 + \color{blue} {\bf \frac {2}{15}} \cdot 6 $$ En esta expresión, cada factor a la izquierda es una fracción del total de observaciones y todos ellos suman la unidad. Se pueden expresar como porcentajes: $$\small {\begin{align}\frac {4}{15} &\approx 0{,}2667 = 26{,}67\% \\ \frac {3}{15} &= 0{,}2 = 20\% \\ \frac {6}{15} &= 0{,}4=40\% \\ \frac {2}{15} & \approx 0{,}1333 = 13{,}33\% \end{align}}$$ Fíjese que cuando solo se conocen estos porcentajes basta dividirlos por \(100\) para obtener las frecuencias relativas.
Tomemos los valores que sean distintos: \(x_1, x_2, \dots, x_k\) y sean \(n_1, n_2, \dots, n_k\), el número de veces que cada uno de estos valores aparece (frecuencia absoluta). En esta situación, la suma de los valores se expresa como $$n_1 x_1 + n_2 x_2 + \dots + n_k x_k $$ y, por tanto, el cálculo de su media aritmética adopta la siguiente forma $$ \overline x = \frac {n_1 x_1 + n_2 x_2 + \dots + n_k x_k} {n_1+\dots+n_k} \tag{2}\label{eq2}$$ que se llama media aritmética ponderada. Una pequeña transformación nos revela otra manera de expresar esta media: $$ \frac {n_1 x_1 + \dots + n_k x_k} {N}= \frac {n_1}{N} x_1 + \dots + \frac {n_k}{N} x_k $$ y podemos escribir $$\overline x = f_1 x_1 + f_2 x_2 + \dots + f_k x_k \tag{2a}\label{eq2a}$$ donde los \(f_1, f_2, \dots, f_k\) reciben el nombre de frecuencias relativas de los valores \(x_1, x_2, \dots, x_k\). Cada frecuencia relativa es una fracción del número total de valores y todas ellas suman la unidad, \(f_1 + f_2 + \dots + f_k = 1\).
Según el contexto, se puede hablar de peso en lugar de frecuencia absoluta y de peso normalizado en lugar de frecuencia relativa.
Añadiendo un nuevo dato
¿En qué forma variará la media cuando añadimos un nuevo valor al conjunto de datos? Para facilitar la lectura, llamemos \(m_N\) a la media de los valores \(x_1, x_2, \dots, x_N\) y añadamos un nuevo valor \( x_{N+1}\). Según \(\eqref{eq1a}\) podemos escribir: $$\begin{align} \underbrace {x_1 + \dots + x_N + x_{N+1}} &= \underbrace {\left ( x_1 + \dots + x_N \right )} + x_{N + 1} \\[1.2ex] (N + 1) \cdot m_{N + 1} &= N \cdot m_N + x_{N + 1}\end{align}$$ y despejando la nueva media: $$m_{N + 1} = \frac{N}{N + 1} m_N + \frac{1}{N + 1} x_{N + 1}.$$Esta es una media ponderada de la media de los \(N\) valores y el nuevo valor añadido. La variación de la nueva media dependerá de cómo sea el nuevo valor añadido respecto de la media antigua. La diferencia $$m_{N + 1} – m_N = \frac{1}{N + 1} (x_{N + 1} – m_N )$$ nos dice que la media se conservará si el valor añadido es \(x_{N+1} = m_N.\)
Las fórmulas \(\eqref{eq1}\), \(\eqref{eq2}\) y \(\eqref{eq2a}\) se utilizan indistintamente para el cálculo de la media, sin embargo, hay que estar atentos sobre la oportunidad de calcular una media simple \(\eqref{eq1}\) o ponderada \(\eqref{eq2}\). La fórmula \(\eqref{eq1a}\) permite descubrir la media en la suma de los datos y prescindir de los puntos suspensivos en favor de una expresión más compacta. Vea los artículos relacionados que ilustran aplicaciones del cálculo de la media.