En el panorama actual de la tecnología, la inteligencia artificial se ha convertido en un motor fundamental para la innovación y el desarrollo. Sin embargo, este avance no solo conlleva un desafío en términos de computación, sino también en la infraestructura que la sostiene. Google, consciente de esta realidad, ha presentado un ambicioso plan para dotar a sus centros de datos con racks capaces de manejar hasta 1 megavatio (MW) de potencia, acompañado de soluciones de refrigeración líquida que prometen revolucionar la manera en que se enfrían estos equipos de alta densidad. El crecimiento exponencial de la inteligencia artificial ha impulsado la necesidad de aumentar la capacidad y eficiencia de los centros de datos. Para 2030, se estima que los despliegues de aprendizaje automático requerirán más de 500 kilovatios por rack, una cifra que supera ampliamente las capacidades actuales.
Esta circunstancia ha llevado a Google a repensar la forma en que distribuye la potencia y gestiona el calor dentro de sus infraestructuras, ya que la densificación de chips y dispositivos aceleradores, como GPUs y TPUs, exige un diseño que maximice el uso del espacio sin sacrificar la estabilidad y el rendimiento. Una de las innovaciones clave en este plan es la transición del voltaje en la distribución de energía. Durante la última década, Google impulsó el cambio de 12 VDC a 48 VDC, lo cual mejoró significativamente la eficiencia energética y permitió escalar la potencia instalada en racks desde los 10 kW hasta los 100 kW. Ahora, el gigante tecnológico ha dado un paso más allá con la adopción de un sistema de distribución de energía en corriente continua que opera a +/-400 VDC. Esta evolución no solo multiplica la capacidad hasta alcanzar el umbral de 1 MW por rack, sino que también aprovecha las economías de escala y la cadena de suministro desarrollada para vehículos eléctricos, garantizando la calidad y confiabilidad de los componentes empleados.
El proyecto Mt. Diablo, una colaboración entre Google, Meta, Microsoft y la comunidad Open Compute Project, tiene como objetivo estandarizar las interfaces eléctricas y mecánicas a 400 VDC, facilitando la adopción y la interoperabilidad en la industria. Esta iniciativa promueve una arquitectura donde los componentes de alimentación y respaldo de batería se ubican fuera del rack, en estructuras dedicadas denominadas sidecar power racks. Esta disposición no solo libera espacio valioso dentro del rack para alojar hardware de computación, sino que también mejora la eficiencia energética en aproximadamente un 3%, un avance significativo en un entorno donde cada punto porcentual impacta en costos y emisiones. El incremento en la densidad de potencia trae consigo otro reto crítico: el manejo térmico.
A medida que los chips evolucionan, su consumo energético y generación de calor aumentan considerablemente. En la actualidad, mientras los CPU consumen alrededor de 100 W, aceleradores especializados pueden superar los 1,000 W, lo que demanda sistemas de refrigeración mucho más avanzados y eficientes. La refrigeración líquida se ha consolidado como la alternativa más viable para enfrentar esta demanda térmica creciente. El agua, con sus excepcionales propiedades térmicas, puede transportar una cantidad de calor mil veces mayor que el aire, lo que implica que es posible reducir considerablemente el volumen necesario para la disipación térmica. Google ha demostrado la eficacia de esta tecnología con despliegues a escala de gigavatios, respaldando más de 2,000 pods TPU con un tiempo de actividad del 99.
999% durante siete años consecutivos. Los servidores refrigerados por líquidos son notablemente más compactos y eficientes en comparación con sus equivalentes refrigerados por aire. Al sustituir los voluminosos disipadores por placas frías, se logra duplicar la densidad de chips por rack y multiplicar por cuatro la escala de los supercomputadores TPU de tercera generación, evidenciando no solo un avance tecnológico sino también una optimización sustancial del espacio y del consumo energético. El desarrollo continuo de la arquitectura de distribución de refrigerante ha tenido en el proyecto Deschutes una evolución marcada. Este diseño de unidades de distribución de refrigerante (CDU) en fila permite un aislamiento efectivo entre el circuito de refrigeración del rack y el del edificio, lo que garantiza un ambiente de alta perfomance y control térmico.
Con redundancia en bombas y intercambiadores de calor, el sistema asegura una disponibilidad excepcional, también del 99.999% desde su despliegue en 2020. Google tiene previsto contribuir este año con el proyecto Deschutes a la comunidad del Open Compute Project, facilitando detalles sobre el diseño, especificaciones, mejores prácticas y recomendaciones para acelerar la adopción de la refrigeración líquida a nivel industrial. Esta colaboración promete abrir un camino para que otros actores de la industria puedan beneficiarse de la experiencia acumulada y optimizar tanto la producción como el mantenimiento de estas soluciones. El desafío que representa la infraestructura necesaria para sostener el rápido avance de la inteligencia artificial no solo es técnico sino también organizacional.
El movimiento hacia sistemas de energía en +/-400 VDC, impulsado por el estandar de Mt. Diablo, y la implementación de refrigeración líquida avanzada, evidencian un enfoque integral que considera tanto la eficiencia energética como la escalabilidad y la sostenibilidad. En resumen, el plan de Google para entregar racks de 1 MW equipados con sofisticados sistemas de enfriamiento líquido no es solo una respuesta a las demandas inmediatas de computación, sino una visión estratégica para el futuro de los centros de datos. Aprovechar tecnologías consolidadas en otras industrias, como la automotriz, y compartir desarrollos con la comunidad abierta, muestran un compromiso con la innovación colaborativa y el establecimiento de nuevos estándares que marcarán la evolución en el manejo de infraestructura digital. El desarrollo de esta infraestructura representa un elemento esencial para garantizar que la inteligencia artificial siga creciendo sin la limitante de la capacidad física y térmica de los centros de datos.
A través de la adopción de voltajes más altos en la distribución eléctrica y la integración de refrigeración líquida a gran escala, Google está sentando las bases para un ecosistema tecnológico robusto, eficiente y preparado para los retos que plantea el futuro tecnológico global.