En la última década, los avances en inteligencia artificial, computación científica y sistemas de alto rendimiento han impulsado una demanda creciente de aceleradores de hardware altamente eficientes y versátiles. Estos aceleradores, diseñados para optimizar operaciones intensivas como multiplicaciones matriciales, se han convertido en componentes esenciales para aplicaciones modernas como modelos de lenguaje, visión por computadora y simulación científica. En este contexto, la precisión y el detalle en la simulación de estos aceleradores revisten una importancia crítica para diseñadores e investigadores que buscan maximizar el rendimiento y minimizar el consumo energético antes de implementar físicamente sus diseños. Aquí es donde SCALE-Sim v3 emerge como una herramienta disruptiva y esencial. SCALE-Sim v3 es una evolución significativa de su predecesor, SCALE-Sim v2, que ya era valorado por brindar simulaciones ciclo a ciclo de arquitecturas basadas en arreglos sisílicos.
Este nuevo simulador introduce una gran variedad de mejoras que abordan limitaciones anteriores y reflejan las demandas actuales del campo tecnológico. A diferencia de versiones anteriores, SCALE-Sim v3 soporta simulaciones multinúcleo, integra análisis precisos y detallados de memoria, y soporta el procesamiento eficiente de matrices dispersas, un aspecto crucial en modelos modernos de IA dada la creciente proliferación de datos esparsos. Uno de los principales avances es la capacidad para realizar simulación multi-core con particionamiento espaciotemporal y estructuras jerárquicas de memoria. Esto permite modelar cómo múltiples núcleos de procesamiento interactúan y se coordinan para maximizar la eficiencia, un desafío común en sistemas complejos donde se debe balancear entre paralelismo y saturación de recursos de memoria y comunicación. Al incorporar esta funcionalidad, SCALE-Sim v3 permite a los investigadores evaluar arquitecturas que escalan horizontalmente de manera realista, ofreciendo perspectivas más completas respecto al rendimiento global.
Además, la inclusión del soporte para multiplicaciones de matrices dispersas (SpMM) con soporte tanto para sparsidad a nivel de capa como a nivel de fila representa un avance crucial para el análisis de aceleradores que deben procesar datos con patrones irregulares. La sparsidad es un fenómeno donde muchos elementos de una matriz son ceros, y aprovechar esta característica facilita reducir la cantidad de cómputo y el consumo energético. SCALE-Sim v3 permite modelar escenarios en los que esta sparsidad es variable y estructurada, permitiendo optimizar algoritmos y arquitecturas para estas condiciones, algo fundamental para redes neuronales profundas modernas. En el área de análisis de memoria, SCALE-Sim v3 se integra con Ramulator, un simulador detallado de DRAM que permite capturar comportamientos reales de la memoria dinámica. Gracias a esto, el simulador puede modelar pausas, latencias y cuellos de botella que se presentan en el acceso a memoria, algo que versiones anteriores simplificaban o ignoraban.
Esto permite evaluar con mayor exactitud el impacto del diseño de la memoria y los patrones de acceso de las aplicaciones en el rendimiento total. A través de esta integración, SCALE-Sim v3 otorga una visión profunda sobre la interacción entre computación y memoria, un aspecto vital para acelerar cargas de trabajo intensivas en datos. SCALE-Sim v3 también introduce un modelado preciso de la disposición de los datos, buscando reducir los stalls o esperas causadas por accesos a memoria ineficientes. El layout o distribución de datos en memoria afecta directamente la latencia y el ancho de banda, elementos que pueden limitar severamente el flujo continuo de datos hacia las unidades de cómputo. Otro avance relevante radica en la incorporación de estimaciones de energía y potencia usando Accelergy, una herramienta para modelar el consumo energético a nivel de hardware.
Esta capacidad habilita a los diseñadores para evaluar el trade-off entre rendimiento y consumo energético, favoreciendo la creación de aceleradores que no sólo sean rápidos sino también eficientes desde el punto de vista energético, un aspecto crítico dado el creciente impacto ambiental y económico de centros de datos y dispositivos inteligentes. Explorando los resultados de las simulaciones, SCALE-Sim v3 ofrece hallazgos interesantes y a veces contraintuitivos. Por ejemplo, en el análisis de diferentes tamaños de arreglos sisílicos para el modelo ViT-base, se observa que un arreglo de 128x128 es significativamente más rápido que uno de 32x32 si sólo se considera la latencia. Sin embargo, en términos de eficiencia energética, el arreglo más pequeño resulta ser casi tres veces más eficiente, debido principalmente a mejor aprovechamiento y menor energía de fuga. Cuando se evalúa el desempeño energético, el arreglo intermedio de 64x64 se posiciona como el óptimo, superando en ese criterio tanto al arreglo más grande como al más pequeño.
Esta dualidad en resultados subraya la importancia de realizar análisis integrales que no solo se centren en la velocidad, sino también en el consumo energético y la utilización de los recursos. SCALE-Sim v3 provee esas métricas detalladas, lo que facilita una toma de decisiones informada que equilibra múltiples metas de diseño. En otro estudio de caso sobre capas ResNet18, SCALE-Sim v2 observó que la estrategia de flujo de datos weight-stationary (WS) reduce el conteo de ciclos de cómputo en un 21% comparado con output-stationary (OS). No obstante, al incorporar el análisis exhaustivo de memoria DRAM con SCALE-Sim v3, se descubre que OS presenta un 30.1% menos ciclos de ejecución cuando se consideran las pausas por acceso a memoria.
Esto confirma que sin un entendimiento profundo del sistema de memoria, los supuestos iniciales sobre el rendimiento pueden ser engañosos. La llegada de SCALE-Sim v3 marca un paso decisivo hacia simulaciones que capturan de manera fiel la complejidad de aceleradores modernos, posibilitando una planificación y diseño más acertados. Su modularidad y extensión lo convierten en una plataforma adaptable para una gran variedad de arquitecturas y cargas de trabajo, desde aplicaciones específicas de IA hasta escenarios generales de HPC. Para arquitectos, desarrolladores y académicos, este simulador se presenta como una herramienta imprescindible en el ecosistema actual, proporcionando insights que podían estar ocultos en simulaciones más simplificadas o abstractas. En un entorno donde la competencia por desarrollar aceleradores más rápidos, eficientes y escalables es intensa, contar con un simulador ciclo a ciclo como SCALE-Sim v3 permite adelantarse y crear soluciones con un alto nivel de certeza antes de la implementación física.