Billeteras Cripto Estrategia de Inversión

La estrategia de Cloudflare para la supervisión global de la salud del servicio y la gestión de lanzamientos de software

Billeteras Cripto Estrategia de Inversión
Cloudflare's approach to global service health metrics and software releases

Explora cómo Cloudflare garantiza la estabilidad y confiabilidad de su red global mediante métricas avanzadas de salud del servicio y un innovador sistema automatizado para la implementación segura de actualizaciones de software.

En el mundo digital actual, donde millones de usuarios dependen de servicios en línea para sus actividades diarias, la estabilidad y confiabilidad de la infraestructura tecnológica son esenciales. Cloudflare, una de las plataformas líderes en servicios web a nivel global, ha desarrollado un enfoque innovador para asegurar la salud y el rendimiento constante de sus servicios alrededor del mundo. Su estrategia combina la recolección y análisis de métricas en tiempo real, con un sistema automatizado que minimiza los riesgos durante el lanzamiento de nuevas versiones de software. Este método no solo protege la experiencia del usuario final, sino que también establece un referente en la administración de infraestructuras digitales a escala. Uno de los problemas más notorios que enfrentan los usuarios en Internet son los errores 500, que representan fallas internas del servidor.

En el contexto de Cloudflare, estas interrupciones pueden deberse a fallas ocasionadas por errores en el software que compone su sistema. Reconociendo que el testing tradicional no es suficiente para detectar todos los errores antes de un lanzamiento, la compañía ha diseñado un sistema de protección gradual, que actúa como un guardián durante la implementación de nuevas funcionalidades. Este sistema se denomina Despliegues Mediados por la Salud, o HMD por sus siglas en inglés. HMD es un mecanismo automatizado basado en datos que envía consultas a una plataforma llamada Thanos, un sistema especializado en la recolección, almacenamiento y escalamiento de métricas provenientes de Prometheus. Prometheus funciona recogiendo datos minuciosos relacionados con el rendimiento y estado de los servicios, mientras que Thanos se encarga de consolidar y hacer accesible esta información a lo largo de la red distribuida de Cloudflare.

La interacción entre ambos permite que HMD tome decisiones inteligentes y rápidas sobre la continuidad o reversión de nuevas actualizaciones, dependiendo de cómo estas afecten la salud del servicio. Para lograr esto, los ingenieros de Cloudflare configuran señales específicas relacionadas con los servicios que operan, tales como reglas de alerta y Objetivos de Nivel de Servicio (SLOs). Por ejemplo, una señal crítica puede ser la tasa de errores HTTP 500 registrados en un lapso de diez minutos. Un Indicador de Nivel de Servicio (SLI) asociado podría calcular la proporción de solicitudes fallidas respecto al total en ese periodo. El SLO entonces establecería un umbral objetivo, como mantener los errores por debajo del 0.

1%. Cuando la salud del servicio se ve comprometida en alguna región o subconjunto donde se está desplegando una nueva versión, HMD es capaz de identificar esta degradación utilizando las métricas disponibles. Con esta información, el sistema puede revertir automáticamente el código a la versión previa, evitando que un problema técnico afecte a una gran parte de la red o a todos los usuarios. Esta capacidad preventiva disminuye la necesidad de intervención humana y acelera la respuesta ante incidentes invisibles aún para los equipos de monitoreo tradicionales. La magnitud de la red de Cloudflare es inmensa, procesando millones de solicitudes por segundo en múltiples regiones y centros de datos alrededor del mundo.

Asegurar la rapidez y eficacia de HMD para reaccionar ante posibles errores, especialmente cuando se lanzan nuevas versiones de software, es clave para mantener la reputación y confiabilidad de la plataforma. Para validar y mejorar la eficacia del sistema, se emplea una técnica llamada backtesting, que simula cómo HMD habría actuado ante incidentes históricos, midiendo el tiempo y precisión de la reacción. Thanos juega un rol fundamental no solo en la consulta de métricas en tiempo real, sino también en la gestión de almacenamiento a largo plazo. Con una retención de datos que abarca hasta un año, Cloudflare almacena miles de millones de series temporales que representan la actividad y salud de sus servicios. Para esto utilizan su solución de almacenamiento de objetos llamada R2, que facilita mantener enormes volúmenes de datos distribuidos a escala global con alta disponibilidad y rendimiento).

Manejar procesos tan extensos y complejos implica grandes desafíos tecnológicos. Las consultas para evaluar múltiples SLOs involucran millones de solicitudes de datos y su procesamiento puede ser intensivo en recursos. Inicialmente, ejecutar un ciclo completo de backtesting podía tardar hasta 30 horas. Sin embargo, gracias a mejoras arquitectónicas y optimizaciones en la forma en que se manejan las consultas y los datos, este tiempo se redujo a apenas 2 horas. Esta mejora sustancial ha incrementado la capacidad del equipo para iterar y mantener un monitoreo riguroso y oportuno.

Uno de los avances técnicos que permitieron esta optimización es el uso de reglas de grabación en Prometheus. Estas reglas precomputan y almacenan consultas comunes y costosas, reduciendo la necesidad de realizar agrupaciones complejas en tiempo real durante cada ejecución. Al segmentar la red en dimensiones como "tier" y "color", Cloudflare puede clasificar sus máquinas y centros de datos para realizar consultas más específicas y eficientes. Así, la cardinalidad de los datos a evaluar se reduce considerablemente, al centrarse únicamente en el subconjunto relevante para cada evaluación de salud y liberando recursos para otras tareas. Además, Cloudflare implementó un modelo de consulta distribuida utilizando el motor de consultas de Thanos.

En lugar de enviar datos sin procesar de todos los centros de datos a un solo punto, se realizan agregaciones parciales en cada centro, obteniendo resultados preagrupados que luego se combinan para obtener la métrica final. Esta estrategia reduce la cantidad de datos transferidos y minimiza la carga computacional en un solo nodo, lo que acelera los tiempos de respuesta y mejora la escalabilidad. El control de congestión es otra pieza clave para garantizar la estabilidad del sistema de monitoreo y despliegue. Las cargas de consultas en HMD pueden ser muy fluctuantes y difíciles de predecir, por lo que Cloudflare desarrolló un mecanismo adaptativo de prioridades y control de concurrencia inspirado en algoritmos como el control de congestión TCP. Esta técnica ajusta dinámicamente la cantidad de consultas simultáneas según la salud del sistema de almacenamiento y procesamiento, aplicando retrasos aleatorios que suavizan picos repentinos.

De este modo, se optimiza el rendimiento general, se minimizan errores y se asegura que las consultas críticas para soporte y resolución de problemas tengan prioridad. Finalmente, Cloudflare explora innovaciones en la forma de almacenar datos de series temporales en objetos. Dado que Thanos actualmente trabaja con bloques TSDB de Prometheus que no fueron diseñados para lecturas sobre medios lentos como el almacenamiento en objeto, han experimentado con almacenar datos en formato Parquet. Este formato columnar puede mejorar la eficiencia de las consultas y reducir la cantidad de operaciones aleatorias de I/O. Aunque el proyecto aún es preliminar, se trata de una iniciativa abierta que busca compartir aprendizajes con la comunidad y avanzar hacia soluciones de observabilidad más escalables y rentables.

En conclusión, la aproximación de Cloudflare a la gestión de la salud global de sus servicios y el despliegue de software combina técnicas avanzadas de monitoreo, análisis de métricas y automatización inteligente. Gracias a la integración de sistemas como Prometheus, Thanos y R2, junto con mejoras en consulta distribuida y control de carga, la compañía puede lanzar actualizaciones con mayor seguridad y reaccionar automáticamente ante fallos potenciales antes de que impacten a los usuarios. Esta estrategia permite ofrecer un servicio confiable y robusto en una infraestructura global de enorme escala, sentando un ejemplo destacado en el panorama tecnológico moderno. Al compartir sus desarrollos y proyectos experimentales en formato abierto, Cloudflare contribuye al avance colectivo en soluciones de observabilidad y resiliencia para Internet.

Trading automático en las bolsas de criptomonedas Compra y vende tu criptomoneda al mejor precio

Siguiente paso
Ask HN: How does structured output from LLMs work under the hood?
el miércoles 11 de junio de 2025 Cómo Funciona la Salida Estructurada de los Modelos de Lenguaje Grandes (LLM) Bajo el Capó

Explora en profundidad el funcionamiento interno de los modelos de lenguaje grandes y cómo logran generar salidas estructuradas utilizando técnicas avanzadas que integran formatos como JSON y modelos Pydantic, asegurando precisión y versatilidad en aplicaciones modernas de inteligencia artificial.

A Global Look at Teletext
el miércoles 11 de junio de 2025 Teletexto: Una Mirada Global a La Tecnología Icónica de la Televisión Analógica

Explora la historia, evolución y relevancia actual del teletexto a nivel mundial, desde sus inicios en Europa hasta su desarrollo en Asia y América, destacando sus distintas variantes técnicas y culturales.

What Treasury Secretary Scott Bessent said at the Milken event (and how his critics responded)
el miércoles 11 de junio de 2025 Análisis detallado de las declaraciones del Secretario del Tesoro Scott Bessent en el evento Milken y la respuesta de sus críticos

Exploramos las declaraciones clave del Secretario del Tesoro Scott Bessent en la conferencia global del Milken Institute, su visión sobre la economía estadounidense y las reacciones que generaron entre analistas y críticos. Un análisis profundo de las perspectivas económicas, políticas arancelarias y el impacto en los mercados globales.

DoorDash to purchase UK rival Deliveroo for $3.9B
el miércoles 11 de junio de 2025 DoorDash adquiere a su rival británico Deliveroo por 3.900 millones de dólares: un cambio radical en el mercado de delivery

La compra de Deliveroo por parte de DoorDash por 3. 900 millones de dólares representa una de las mayores operaciones en el sector de la entrega de alimentos a nivel global, marcando un antes y después para el mercado británico y ofreciendo a DoorDash una posición dominante en Europa.

‘AI is already eating its own’: Prompt engineering is quickly going extinct
el miércoles 11 de junio de 2025 La Extinción Rápida del Prompt Engineering: Cómo la IA Está Transformando el Mercado Laboral

El rol de prompt engineering, que emergió como una profesión clave en la era de la inteligencia artificial, está desapareciendo rápidamente a medida que la IA se integra profundamente en distintos sectores. La evolución tecnológica está desplazando estos trabajos especializados, transformándolos en habilidades básicas dentro de nuevas funciones y redefiniendo el futuro del empleo en la era digital.

Corporate Earnings Have Been Solid. Here's Why Some Analysts Don't Think That Will Last
el miércoles 11 de junio de 2025 Ganancias Corporativas Sólidas Aunque Con Nubes en el Horizonte: Por Qué Algunos Analistas Prevén un Retroceso

El desempeño financiero de las empresas ha mostrado resultados alentadores, impulsando la confianza en los mercados. Sin embargo, expertos financieros advierten que ciertos factores, como las tarifas comerciales impuestas y la incertidumbre en políticas económicas, podrían afectar negativamente las ganancias en un futuro cercano.

The 4 best entry-level jobs right now — and the 4 worst
el miércoles 11 de junio de 2025 Los 4 mejores y los 4 peores trabajos de nivel inicial en la actualidad

Descubre cuáles son las mejores opciones laborales para empezar tu carrera profesional y cuáles conviene evitar según factores claves como demanda, crecimiento, salario y seguridad laboral.