El 9 de marzo de 2025, la plataforma de Gandi, uno de los proveedores de servicios de dominio y correo electrónico más reconocidos, sufrió un incidente crítico que afectó a múltiples servicios, incluyendo una interrupción significativa en el acceso a los buzones de correo. Este evento, que duró más de dieciséis horas en su fase más crítica, desencadenó una investigación exhaustiva y la implementación de medidas para fortalecer la infraestructura y prevenir futuras fallas. Entender los detalles de este episodio resulta esencial para profesionales del sector tecnológico, usuarios y analistas que buscan comprender cómo manejar y reaccionar ante emergencias técnicas en servicios digitales. La raíz del problema estuvo en la caída de un sistema de almacenamiento basado en SSD que soportaba gran parte de la operación de la plataforma. Este fallo derivó en la inaccesibilidad temporal de aproximadamente el 39% de todos los buzones gestionados por Gandi, con un subgrupo del 15% que permaneció verdadero sin acceso hasta el día siguiente.
A pesar de la complejidad de la situación, es relevante destacar que no se perdieron ni corrompieron datos en ningún momento, lo que apunta a un manejo responsable y efectivo de la integridad de la información durante la crisis. El origen del inconveniente fue más que una simple falla de hardware. Factores adicionales profundizaron el impacto y prolongaron la resolución. Algunos sistemas carecían de redundancia eficaz para solventar la interrupción de almacenamiento, aspectos críticos en infraestructuras digitales modernas. Otros sistemas configurados para ser resilientes en niveles de máquinas virtuales finalmente dependían de un único dispositivo de almacenamiento afectado, lo que evidencia un diseño arquitectónico inapropiado.
Además, los recursos de servicio con redundancia tanto a nivel de máquinas virtuales como de almacenamiento no tenían la capacidad suficiente para absorber el incremento en la carga provocado por la pérdida de un componente. El desarrollo del incidente fue acompañado de una serie de operaciones y esfuerzos para diagnosticar y mitigar los efectos. Desde la detección inicial a las 00:31 UTC, se activó un extenso seguimiento de alertas que superó las 1500 notificaciones y un equipo principal de respuesta fue movilizado rápidamente. Entre los principales retos cosechados por el equipo técnico y de soporte estuvo la indisponibilidad temporal de herramientas internas clave, incluyendo sistemas de autenticación y bots de monitoreo, agravando la dificultad para acceder a información relevante y coordinar las acciones necesarias. La falla del sistema de almacenamiento provocó un choque en cadena que afectó también al acceso de la propia red virtual privada (VPN), limitando el acceso del equipo de soporte que dependía de esta conexión para operar con normalidad.
La complejidad y entrelazamiento de los sistemas críticos mostraron las vulnerabilidades inherentes a la infraestructura existente y evidenciaron la importancia de un diseño distribuido y robusto para servicios que abarquen necesidades tan esenciales como el correo electrónico. Durante la investigación, se intentaron distintas acciones como reinicios manuales del almacenamiento y actualizaciones de firmware, algunas de ellas fallidas, hasta que finalmente se aisló un problema vinculado a un dispositivo PCI, lo que llevó a desmontar y cambiar componentes físicamente en el centro de datos. La restauración gradual de servicios comenzó en la tarde del mismo día, recuperando la mayoría de las funcionalidades excepto el acceso a buzones. El trabajo para ajustar y montar correctamente los sistemas de archivos de buzones se extendió hasta dos días después, cuando finalmente los usuarios pudieron recuperar la totalidad de sus correos, almacenados inicialmente en carpetas dedicadas para no perder ningún mensaje recibido durante la incidencia. En el análisis posterior, se destacó la dificultad para identificar la causa raíz debido a la interdependencia de los sistemas y a la limitada funcionalidad de las herramientas internas, las cuales dependían de servicios afectados por el problema, lo que causó una paradoja operativa.
Además, el equipo de soporte no pudo actuar con su habitual eficiencia debido a la conexión restringida y a la autenticación comprometida, reforzando la necesidad de implementar procedimientos y configuraciones que contemplen contingencias en entornos críticos. Las lecciones aprendidas derivaron en una serie de acciones estratégicas y operativas encaminadas a mejorar la resiliencia de los sistemas. Gandi se comprometió a reforzar la redundancia de sus herramientas de monitoreo para garantizar que en futuras incidencias sea posible detectar problemas de manera inmediata y con datos confiables. Se decidió también mejorar los mecanismos para que las máquinas virtuales sean desconectadas automáticamente en caso de fallos en el almacenamiento subyacente, evitando así sobrecargas que puedan deteriorar aún más el sistema. Otro aspecto esencial fue la distribución equitativa de los servicios redundantes a través de diferentes sistemas de almacenamiento para evitar puntos únicos de fallo.
La documentación interna fue actualizada y se entrenó al personal en procedimientos diseñados expresamente para manejar interrupciones en sistemas esenciales como la autenticación y la red, procurando que las respuestas sean más fluidas y coordinadas. La infraestructura relativa a las máquinas virtuales que exponen los buzones a los usuarios recibió atención especial, aumentando la cantidad de instancias para asegurar que las variaciones en el tráfico y carga puedan ser gestionadas sin impactar negativamente la experiencia del cliente. Finalmente, se anunció un plan para migrar de la actual tecnología ZFS a una solución basada en Ceph, un sistema más distribuido que ofrece mayores garantías contra fallas físicas y mayor tolerancia a errores. Este incidente es un recordatorio claro de que incluso los proveedores más confiables pueden enfrentar situaciones excepcionales que exijan una respuesta rápida, organizada y técnica para minimizar el impacto en sus usuarios. La dedicación y profesionalismo del equipo de Gandi, que incluyó la participación voluntaria fuera de horario de guardia, es un ejemplo palpable de compromiso con la calidad del servicio y la confianza de sus clientes.