Estafas Cripto y Seguridad

La Transformación de Uber: De la Infraestructura Tradicional a Ray en Kubernetes para Machine Learning

Estafas Cripto y Seguridad
Uber's Journey to Ray on Kubernetes

Explora cómo Uber revolucionó su infraestructura de machine learning migrando sus cargas de trabajo a Ray sobre Kubernetes, mejorando la escalabilidad, eficiencia y experiencia para desarrolladores al implementar estrategias avanzadas de gestión de recursos y optimización de hardware heterogéneo.

Uber, una de las empresas líderes a nivel mundial en innovación tecnológica y operaciones a gran escala, ha atravesado una significativa evolución en la forma en que gestiona sus cargas de trabajo de machine learning. La migración de sus procesos desde un sistema tradicional basado en Apache Spark y el servicio Michelangelo Deep Learning Jobs (MADLJ) hacia una plataforma unificada que usa Ray sobre Kubernetes representa un cambio estratégico crucial para enfrentar los retos de escalabilidad, eficiencia y flexibilidad que demandan las aplicaciones de inteligencia artificial modernas. Originalmente, la infraestructura de machine learning de Uber se apoyaba principalmente en MADLJ, un sistema diseñado para coordinar distintas tareas, desde procesos ETL (extracción, transformación y carga) utilizando Apache Spark hasta el entrenamiento de modelos a través de Ray. Sin embargo, este enfoque presentaba limitaciones notables, particularmente en la gestión de recursos computacionales. Los ingenieros de machine learning debían seleccionar manualmente el hardware adecuado, evaluando la disponibilidad de GPUs y la capacidad del clúster, lo que generaba ineficiencias y retrasos considerables en los flujos de trabajo.

Además, la configuración rígida y estática de los recursos y clústeres generaba una distribución de cargas poco equilibrada y un subuso frecuente de las capacidades disponibles. La infraprovisión provocaba fallos en las tareas o demoras significativas, mientras que la sobreprovisión implicaba un desperdicio costoso de recursos. Este estado de rigidez dificultaba la escalabilidad y hacía necesario contar con una solución más adaptable y automatizada para mantener la competitividad y mejorar el rendimiento. Ante estos desafíos, Uber decidió migrar sus cargas de trabajo de machine learning a Kubernetes, declarando un cambio hacia una infraestructura más flexible, elástica y eficiente. Esta transición no solo implicó la adopción de una nueva plataforma tecnológica, sino también un replanteamiento profundo de cómo se gestionan los recursos y cómo se facilita la experiencia de usuario para los científicos y desarrolladores de datos.

El objetivo principal fue crear una plataforma en la que los usuarios pudieran especificar el tipo de trabajo y los recursos necesarios de una manera declarativa, desacoplando el detalle técnico de la infraestructura subyacente. Así, el sistema se encarga automáticamente de asignar y distribuir los recursos de manera óptima, evaluando las condiciones actuales del clúster y las prioridades de los trabajos en ejecución. Una de las innovaciones clave implementadas por Uber fue la introducción de un esquema de recursos jerárquico basado en pools, que organiza los recursos del clúster conforme a límites organizacionales o por equipos. Esta estructura permite una gestión más granular y una mejor visibilidad del uso de recursos dentro de la empresa, asegurando que cada equipo disponga de un presupuesto computacional definido pero flexible. Para maximizar la utilización del hardware, se implementó una política de elasticidad en la cual los pools pueden compartir recursos temporalmente.

Si un pool cuenta con recursos inactivos, estos pueden ser prestados a otro pool que los requiera, aumentando así la eficiencia general sin necesidad de redistribuciones permanentes. Estos recursos compartidos son preemptibles, lo que significa que pueden ser reclamados por el pool original cuando se requiera su uso prioritario. Este mecanismo se rige por principios de max-min fairness para garantizar tanto la equidad como la eficiencia en el acceso a los recursos. Otro aspecto fundamental en la optimización de la infraestructura fue el manejo específico del hardware heterogéneo, dada la presencia de nodos con GPU y otros solo con CPU en los clústeres de Uber. Para sacar el máximo provecho de este entorno, las tareas que no requieren aceleración por GPU, como la carga de datos y la preprocesamiento, son programadas en nodos con CPU únicamente, reservando los nodos GPU para las labores de entrenamiento del modelo, que demandan alta potencia de cómputo.

Para facilitar esta diferenciación, Uber diseñó un plugin de filtrado para pods con requerimientos de GPU, asegurando que solo estos workloads se programen en nodos compatibles. El scheduler de Kubernetes también fue mejorado para soportar distintas estrategias en función del tipo de carga: una estrategia orientada a la distribución equilibrada para pods sin GPU y una estrategia de bin-packing para cargas con GPU, buscando minimizar la fragmentación de recursos y maximizar la densidad de trabajo. Estos avances técnicos han supuesto un salto importante respecto al escenario anterior, brindando a Uber una infraestructura mucho más capaz de responder a la variabilidad y escalabilidad exigidas por sus aplicaciones de inteligencia artificial. La nueva plataforma permite automatizar la asignación de recursos, mejorar la utilización del hardware, y al mismo tiempo garantizar la equidad y estabilidad de operación entre distintos equipos y proyectos. Además, la implementación de Ray sobre Kubernetes ha mostrado otros beneficios como la simplificación del desarrollo y despliegue de modelos, mejor integración con los procesos de CI/CD, y una base más sólida para la experimentación rápida y el escalamiento en producción.

Trading automático en las bolsas de criptomonedas Compra y vende tu criptomoneda al mejor precio

Siguiente paso
Land subsidence risk to infrastructure in US metropolises
el viernes 13 de junio de 2025 El Riesgo de Hundimiento del Suelo y su Impacto en la Infraestructura de las Grandes Ciudades de Estados Unidos

El fenómeno del hundimiento del suelo representa una amenaza silenciosa pero creciente para la infraestructura urbana en las principales ciudades de Estados Unidos. Este fenómeno, impulsado principalmente por la extracción intensiva de agua subterránea y procesos naturales, afecta a millones de personas y demanda una gestión integrada para mitigar sus impactos.

Why Everyone's Talking About Crypto Payments in 2025
el viernes 13 de junio de 2025 Por Qué Todos Hablan de los Pagos con Criptomonedas en 2025

Explora cómo las stablecoins están revolucionando los pagos digitales en 2025, la adopción masiva por parte de grandes plataformas y empresas, y el impacto que tiene esta tendencia en la economía global y el comercio cotidiano.

Highlights from the Comments on AI GeoGuessr
el viernes 13 de junio de 2025 Lo Mejor de los Comentarios sobre la Inteligencia Artificial en GeoGuessr: Análisis y Perspectivas

Un análisis profundo sobre las capacidades y limitaciones de la inteligencia artificial aplicada al juego GeoGuessr, basado en las experiencias y pruebas recopiladas por expertos y usuarios, explorando cómo la IA interpreta imágenes geográficas y el impacto en el futuro del reconocimiento visual.

The Screamer – a yell-on yell-off light
el viernes 13 de junio de 2025 The Screamer: La luz que se enciende y apaga con un grito

Descubre cómo The Screamer reinventa la automatización en el hogar permitiendo controlar la iluminación con gritos, utilizando tecnología avanzada y un enfoque práctico para una experiencia sencilla y divertida.

Visual Stufio Code version 1.100
el viernes 13 de junio de 2025 Visual Studio Code 1.100: La Revolución en la Experiencia de Desarrollo para Programadores en 2025

Explora a fondo las innovaciones y mejoras que trae Visual Studio Code versión 1. 100, desde la integración avanzada de inteligencia artificial hasta mejoras en la accesibilidad y productividad.

Senate Votes Against Advancing Stablecoin Bill, Delaying Process as Trump Concerns Fester
el viernes 13 de junio de 2025 Senado de EE.UU. frena avance de proyecto para regular stablecoins ante preocupaciones políticas y técnicas

La votación en el Senado de Estados Unidos para avanzar en una legislación clave sobre stablecoins fue rechazada, generando incertidumbre sobre el futuro normativo de estas criptomonedas respaldadas en dólares. Factores políticos, como las preocupaciones sobre vínculos empresariales de Donald Trump, y discusiones técnicas sobre la protección contra actividades ilícitas, han retrasado el proceso.

Trump Is Threatening Big Pharma With Tariffs. Tax Changes Might Work Better
el viernes 13 de junio de 2025 ¿Pueden los Cambios Fiscales Ser la Clave para el Futuro de la Industria Farmacéutica ante Amenazas de Aranceles?

Analizamos cómo las amenazas de aranceles de la administración Trump impactan la industria farmacéutica en Estados Unidos y por qué las reformas fiscales podrían ser una solución más efectiva para incentivar la inversión y producción local.