En el mundo de la arquitectura de computadores, uno de los temas más recurrentes y a la vez más polémicos es la manera correcta de calcular el rendimiento promedio de diferentes sistemas ante múltiples cargas de trabajo. Este debate, que ha persistido durante décadas, gira en torno a qué tipo de media —aritmética, geométrica o armónica— es realmente la ideal para representar, de forma justa y significativa, el desempeño medio de una máquina frente a otra. A pesar de su aparente sencillez, encontrar una respuesta definitiva se ha convertido en un desafío faro para expertos y académicos en el área. Para contextualizar la problemática, es importante entender qué significa calcular un promedio en este ámbito. Cuando un arquitecto de computadoras compara dos sistemas, A y B, usando una serie de n cargas de trabajo, se observa en cada caso cuánto más rápido o lento es A frente a B.
Estos valores de velocidad relativa (o speedup) suelen expresarse como S1, S2, …, Sn. El gran reto es sintetizar estos datos en un solo número que refleje cuánto más rápido es A respecto a B “en promedio”, un concepto que no es tan simple como parece. La media aritmética, probablemente la más intuitiva para el público en general, consiste en sumar todos los speedups y dividirlos por el número de pruebas realizadas. Sin embargo, en el contexto de evaluaciones de rendimiento, esta aproximación presenta varias desventajas. Por ejemplo, tiende a dar un peso desproporcionado a valores extremos y puede resultar engañosa si los speedups varían significativamente entre las cargas de trabajo.
Además, este promedio no se comporta bien cuando los valores comparados son razones o proporciones, tal como ocurre con los speedups. Debido a estas limitaciones, una alternativa ampliamente defendida y adoptada en la comunidad ha sido la media geométrica. Este método consiste en multiplicar todos los valores y extraer la raíz n-ésima del producto, donde n es el número de elementos. El argumento central a favor de la media geométrica es que conserva propiedades matemáticas valiosas para comparar razones en series de datos heterogéneos. Por ejemplo, la media geométrica del cociente de rendimientos es igual a la razón de las medias geométricas, una propiedad que asegura que la elección de un sistema de referencia no afecte el resultado final.
Esto favorece la igualdad en la comparación y hace que la interpretación sea más intuitiva para casos en los que los tiempos o velocidades son relativos. Henessey y Patterson, referentes eminentes en la arquitectura de computadores, han sido defensores notables del uso de la media geométrica precisamente por estas razones. En sus textos fundamentales recomiendan este método al trabajar con ratios de rendimiento, ya que ayuda a evitar sesgos introducidos por la escala y la selección de cargas de trabajo. Sin embargo, no todo el mundo está convencido de que la media geométrica sea la solución terminal al problema. Investigadores contemporáneos han planteado objeciones, especialmente cuestionando que la media geométrica carezca de una interpretación física cotidiana.
Un ejemplo destacado es el trabajo presentado en un artículo reciente de IEEE Computer Architecture Letters, donde se introduce la noción de la media armónica ajustada al concepto de “equal-work” o trabajo igual. La media armónica ponderada, conocida como Equal-Time Harmonic Speedup (ETS), toma en cuenta la duración de las cargas y pondera el speedup de cada prueba en función del tiempo que toma en una máquina base. Esto proporciona una “interpretación física” del indicador, ya que puede reflejar el speedup total al ejecutar las cargas de trabajo sucesivamente, bajo la hipótesis de que cada carga ocupa idéntico tiempo en la máquina de referencia. Para ilustrar, si una máquina es el doble de rápida en una prueba pero la mitad de rápida en otra, la media armónica da un resultado que puede ser considerado más fiel a la experiencia de ejecución secuencial. Es decir, esta media se aproxima mejor a lo que un usuario experimentaría si realizara una serie de tareas consecutivas bajo esas condiciones.
No obstante, los defensores de la media geométrica suelen argumentar que esta “interpretación física” de la media armónica no es realmente relevante en la práctica. En entornos cotidianos, las cargas de trabajo no suelen ejecutarse en secuencia con tiempos iguales ni estrictamente definidos. Los usuarios finales alternan aplicaciones, multitarea, procesos concurrentes y diferentes patrones de uso que distan mucho de la simplificación del “tiempo igual”. Así, la significancia de la media armónica puede perder peso fuera de escenarios muy específicos. Esta discusión nos lleva a una postura más pragmática: cuando el propósito es ofrecer un número representativo para un conjunto generalista de pruebas, ninguna media proporciona una respuesta perfecta.
Cada promedio tiene fortalezas y debilidades —todas sacrifican una parte del significado o precisión según la óptica desde la que se examine el rendimiento. Por tanto, la recomendación predominante entre expertos es utilizar la media que mejor se adapte al contexto y finalidad del análisis. Si se conoce con certeza qué aplicaciones y qué proporción de uso serán prioridades en un sistema o ambiente particular, lo ideal es ponderar los resultados de acuerdo con esta distribución de uso real, usando medias ponderadas adaptadas a ese contexto. De esta manera, el promedio tiene valor práctico y responderá fidelignamente a las necesidades del usuario o proyecto. No obstante, en el caso de benchmarks generales como SPEC, cuyo objetivo es proporcionar indicios amplios sobre las tendencias de desempeño, la media geométrica sigue siendo la preferida por su neutralidad y claridad comparativa.
Su facilidad para estandarizar resultados y facilitar la comparación entre estudios y generaciones de sistemas la ha consolidado como estándar de facto, aun cuando los expertos reconozcan las imperfecciones inherentes. Este debate sobre la media más apropiada también refleja un problema más profundo dentro de la evaluación académica y la práctica industrial. A menudo, una excesiva atención a cómo presentar promedios termina por distraer de problemas más fundamentales, como la selección de benchmarks realistas, la validez de los modelos empleados, y la relevancia práctica de las mejoras reportadas. Algunos veteranos en la industria incluso aconsejan tomar estas métricas con cautela, centrando el análisis en el valor y aplicabilidad de las innovaciones propuestas antes que en la pureza matemática de sus medidas de resumen. Por último, hay que entender que ninguna función matemática podrá capturar completamente la compleja realidad del uso y rendimiento de sistemas computacionales modernos.