Promediar promedios

Este artículo sobre el tema de promedios surgió después de asistir a una reunión en la que se presentaban los resultados de un cuestionario que valoraba diversos aspectos del funcionamiento de un centro de estudios. El informe estratificaba las encuestas en tres grupos \(X\), \(Y\), \(Z\). Se presentaban las medias de las puntuaciones otorgadas en cada grupo, que denotamos \(\overline x\), \(\overline y\), y \(\overline z\), y, como resumen, la media \(\overline q\) del centro. Esta valoración media del centro se había calculado como una media simple, es decir,  $$\overline q = \frac {\overline x+ \overline y+ \overline z}{3}$$ El cálculo sería admisible si los grupos tuvieran el mismo número de encuestas, pero no era así. Sin embargo, el conductor de la presentación no tuvo ningún reparo en presentar la media obtenida de esta forma.

Para realizar el cálculo correcto de esta media debemos considerar el tamaño de los grupos y, con ello, estableceremos la importancia relativa de las medias grupales respectivas. Vamos a ver que, en efecto, es así. La valoración media del centro viene dada por la fórmula $$\overline{q}=\frac{(x_1+\dots+x_m)+(y_1+\dots+y_p)+(z_1+\dots+z_r)}{m+p+r} \tag{1}\label{eq1}$$ donde sumamos todas las valoraciones y dividimos por el número de ellas. En los paréntesis se suman las valoraciones incluidas en el mismo grupo. Las del grupo \(X\) han sido nombradas con la letra minúscula homónima, \(x\), y numeradas desde \(1\text{ hasta }m\). De forma semejante se han nombrado las valoraciones de las \(p\) encuestas del grupo \(Y\) y las \(r\) del grupo \(Z\).

¡Pero aquí no aparecen las valoraciones medias de cada grupo! ¿Cómo hacemos el cálculo si solo conocemos esas medias y no las valoraciones individuales requeridas por esta fórmula? Tengamos a la vista la fórmula de la media grupal. Para el grupo \(X\) de valoraciones, la media es $$\overline x = \frac {x_1+\dots+x_m}{m}$$ y, ahora, hagamos con ella una pequeña cabriola, $$x_1+\dots+x_m = m\cdot\overline x $$ Para las otras «sumas con puntos» hacemos lo mismo $$\begin{align} y_1+\dots+y_p &= p\cdot\overline y \\  z_1+\dots+z_r &= r\cdot\overline z \end{align}$$ y, sustituyendo en \(\eqref{eq1}\) podemos escribir $$\overline{q} = \frac{m\cdot\overline x + p\cdot\overline y + r\cdot\overline z }{m+p+r}$$ Esta fórmula no es otra que la media de las medias de cada grupo, cada una de ellas ponderada con el número de encuestas del grupo.

Finalmente, si nombramos \(n\) al total de encuestas \(m+p+r\), esta media ponderada puede expresarse con pesos normalizados, iguales al número de encuestas de cada grupo sobre el número total de encuestas: $$\overline{q} = \frac{m}{n}\cdot\overline x + \frac{p}{n}\cdot\overline y + \frac{r}{n}\cdot\overline z$$ Por tanto, es necesario conocer no solo la media de cada grupo sino también el número de valores que produjeron tales medias. Éste es el cálculo correcto que resuelve el problema.

Pero, aunque el dicho  «el mejor escribano echa un borrón» sólo perdona el primer error, en algunas ocasiones no es el único. En los informes sobre política pesquera de la Unión Europea también se cometen estos errores. Siga leyendo en la segunda página.

Deja una respuesta