Realidad Virtual

Revolucionando la inferencia de DeepSeek: SGLang como solución de alto rendimiento para modelos LLM a gran escala

Realidad Virtual
Match DeepSeek's inference system performance with SGLang

Explora cómo SGLang logra igualar y en ocasiones superar el rendimiento del sistema de inferencia DeepSeek mediante innovadoras técnicas de paralelismo y optimización en entornos con GPUs H100. Conoce los avances en manejo eficiente de memoria, paralelismo experto a gran escala, y estrategias de prefill y decode disgregados para impulsar la inferencia de grandes modelos de lenguaje con costos reducidos y alta escalabilidad.

En el ámbito creciente de la inteligencia artificial, los modelos de lenguaje a gran escala (LLM) han transformado la manera en que interactuamos con la tecnología. DeepSeek, un reconocido modelo de código abierto, ha destacado por su arquitectura única y alta calidad de resultados gracias al empleo de mecanismos avanzados como la Atención Latente Multi-cabeza (MLA) y la Mezcla de Expertos (MoE). Sin embargo, a medida que estos modelos aumentan en complejidad y tamaño, la necesidad de sistemas de inferencia eficientes, escalables y asequibles se vuelve imperativa para su despliegue y uso en ambientes reales. En este contexto, SGLang emerge como un innovador framework que consigue igualar el desempeño de DeepSeek en escalas de infraestructura masiva gracias a novedosas optimizaciones y diseño de paralelismo que optimizan el consumo de memoria y la velocidad de procesamiento de tokens. El reto más importante en la inferencia de DeepSeek reside en su compleja arquitectura.

La combinación de MLA y MoE implica un elevado costo computacional y una ingente demanda de memoria para manejar no solo los pesos del modelo, sino también las grandes cantidades de cachés y estados que se generan durante la inferencia. Para afrontar estos desafíos, SGLang desarrolla un enfoque tecnológico que despliega el sistema en un clúster de 12 nodos con 8 GPUs NVIDIA H100 cada uno — un conjunto que permite correr el modelo con una paralelización experta a gran escala, además de la separación entre fases de prefill y decode, conocida como desagregación PD (prefill-decode). En detalle, la arquitectura paralela de SGLang está diseñada para optimizar cada componente clave del modelo DeepSeek. La atención MLA se maneja mediante un paralelismo de datos que elimina la duplicidad de cachés KV entre dispositivos, reduciendo significativamente el consumo de memoria. En las redes de alimentación directa densas, SGLang opta por una paralelización basada en datos en vez de tensorial, ya que evita la fragmentación innecesaria del trabajo y mejora la eficiencia de memoria, especialmente relevante dado el tamaño intermedio de 18,432 características que utiliza DeepSeek-V3.

A su vez, las redes de alimentación directa dispersas de la arquitectura MoE reciben tratamiento con paralelismo experto, distribuyendo los pesos de expertos a través de múltiples GPUs, habilitando así la gestión eficiente de modelos con cientos de expertos y variedad de tokens destinados a cada uno. Un elemento fundamental de la propuesta es la desagregación PD, que separa la ejecución de la fase de prefill de la fase de decode. Tradicionalmente, estos procesos se manejaban conjuntamente, generando cuellos de botella debido a interrupciones y latencias en la generación de tokens. Dividiendo la ejecución en servidores independientes para prefill y decode que se comunican de manera asíncrona con transferencia no bloqueante optimizada vía RDMA, SGLang maximiza la utilización de recursos y reduce las demoras en la generación token por token. En el corazón de la paralelización experta está la integración del sistema DeepEP, desarrollado inicialmente por el equipo DeepSeek, que mejora la comunicación y la asignación dinámicas de los tokens a los expertos adecuados.

DeepEP ofrece modos de despacho adaptados a las diferentes cargas del prefill — optimizado para secuencias largas con máximo rendimiento — y decode — enfocado en mínimo retardo y compatible con CUDA Graph para lanzamientos de kernel eficientes. La desagregación PD permite usar simultáneamente ambos modos en las fases correspondientes, superando limitaciones previas que impedían esta flexibilidad. Junto con DeepEP, DeepGEMM potencia la capacidad de realizar operaciones matriciales agrupadas en MoE, diferenciando kernels con layouts contiguos para entradas dinámicas en prefill y layouts enmascarados para decode. La integración estratégica de estos kernels junto con la reordenación mediante kernels personalizados de Triton mejora la eficiencia del cómputo y reduce la latencia durante la generación de tokens. Otro avance tecnológico relevante es el solapamiento de dos micro-batches (Two-batch Overlap, TBO), esencial para entornos multinodo donde el ancho de banda de comunicación puede limitar la velocidad total.

Al dividir los lotes en subdivisiones que permiten compaginar la comunicación con la computación, SGLang no solo mejora el rendimiento general sino que también reduce el pico de uso de memoria, permitiendo manejar batches más grandes y cargas más balanceadas. El balanceo de carga experto representa otro desafío central en inferencia MoE a gran escala. SGLang incorpora un balanceador de carga experto (EPLB) que utiliza estadísticas de distribución para reasignar expertos dinámicamente, incluyendo la duplicación o agrupación estratégica, mitigando problemas de saturación y subutilización que afectan la latencia y rendimiento. EPLB muestra mejoras significativas en la utilización de GPU y throughput, especialmente conforme el tamaño del clúster crece y la disparidad en la activación de expertos se magnifica. Para gestionar el elevado consumo de memoria en PyTorch y evitar problemas derivados de referencias a tensores, SGLang introduce la clase DisposableTensor que agiliza la liberación inmediata de memoria CUDA, lo que contribuye a disminuir el uso pico de recursos y aumenta la eficiencia de ejecución en ambas fases.

En los ensayos de evaluación realizados en un clúster con 12 nodos y 96 GPUs H100, SGLang logró procesar hasta 52.3 mil tokens de entrada por segundo y 22.3 mil tokens de salida por segundo por nodo para secuencias de 2000 tokens, cifras que se acercan notablemente a las reportadas por DeepSeek en su infraestructura oficial. Más allá del rendimiento, la implementación alcanzó un costo estimado de $0.20 por millón de tokens de salida, aproximadamente una quinta parte del costo oficial de la API de DeepSeek, haciendo del sistema una alternativa más eficiente y accesible.

El análisis detallado de rendimiento desglosado por kernels evidencia áreas donde SGLang iguala o supera el desempeño oficial de DeepSeek, destacando especialmente la mejora en la etapa decode gracias al tamaño aumentardo de batches que permite la paralelización experta y optimizaciones de ruta crítica en comunicaciones y cómputo. El estudio abarcó también escenarios simulados con Multi-Token Prediction (MTP) que, aunque no completamente integrado con DP Attention, mostró que SGLang mantiene una alta eficiencia bajo condiciones realistas. Entre las limitaciones actuales, SGLang reconoce que la optimización para latencia, especialmente tiempo al primer token y latencia entre tokens, requiere atención futura para aplicaciones sensibles en tiempo real. Además, la extensión a secuencias más largas y la compatibilidad con arquitecturas GPU emergentes, tales como Blackwell, son áreas activas de desarrollo. En conjunto, la contribución de SGLang representa un hito para la comunidad open source en la expansión del poder de los LLMs gracias a un sistema de inferencia que no solo replica el rendimiento de DeepSeek, sino que aporta apertura, flexibilidad y eficiencia económica.

Esta labor colaborativa permite a investigadores y desarrolladores explorar nuevas fronteras en despliegue masivo de modelos de inteligencia artificial, abriendo las puertas a aplicaciones más accesibles y robustas en múltiples sectores. Con un diseño de paralelismo meticuloso, uso innovador de desagregación de fases, integración con bibliotecas especializadas como DeepEP y DeepGEMM, y técnicas de manejo de memoria avanzadas, SGLang demuestra que la convergencia entre ingeniería de sistemas y arquitectura de modelos profundos puede crear soluciones capaces de escalar y optimizar al máximo el potencial de tecnologías complejas. La puesta a disposición de código abierto y documentación detallada facilita la evolución y adaptación continua de esta plataforma, marcando un camino prometedor para futuros desafíos y oportunidades en inteligencia artificial a gran escala.

Trading automático en las bolsas de criptomonedas Compra y vende tu criptomoneda al mejor precio

Siguiente paso
Show HN: OpenRouter Model Price Comparison
el viernes 06 de junio de 2025 Comparación de Precios de Modelos AI en OpenRouter: Guía Completa para Elegir el Mejor Modelo para Ti

Explora una comparativa exhaustiva de los precios de los diferentes modelos de inteligencia artificial disponibles en OpenRouter. Conoce cómo los costos de entrada, salida y contextos pueden influir en la selección del modelo ideal para tus proyectos de IA, optimizando tanto el rendimiento como la inversión.

Nim to CUDA GPU Prover: 5.3x Faster Than Icicle
el viernes 06 de junio de 2025 Nim y CUDA: La Revolución en Proveedores GPU con un Rendimiento 5.3 Veces Superior a Icicle

Explora cómo la combinación de Nim y la compilación en tiempo de ejecución de CUDA mediante NVRTC está transformando el desarrollo de pruebas criptográficas en GPU, superando ampliamente a la biblioteca Icicle en velocidad y eficiencia para la construcción de árboles de Merkle con la permutación Poseidon2.

How prime factorizations govern the Collatz conjecture
el viernes 06 de junio de 2025 Cómo Las Factorizaciones Primas Regulan la Conjetura de Collatz: Un Enfoque Matemático Profundo

Explora la relación fundamental entre las factorizaciones primas y la famosa conjetura de Collatz, entendiendo cómo la estructura matemática de los números revela patrones ocultos en esta secuencia declarada simple pero desconcertante.

X-ray reveals ancient Greek author of charred first century BC Vesuvius scroll
el viernes 06 de junio de 2025 El misterio revelado: un antiguo filósofo griego descubierto en un pergamino carbonizado del Vesubio

Los avances tecnológicos permiten identificar un texto antiguo de origen griego hallado en un rollo carbonizado en Herculano, brindando una nueva perspectiva sobre la filosofía epicúrea y la historia del siglo I a. C.

Vatican to cut phone signal during conclave to elect new pope
el viernes 06 de junio de 2025 El Vaticano Desactiva Señal Móvil Durante el Cónclave para Elegir al Nuevo Papa

El Vaticano anuncia la desconexión temporal de las señales telefónicas móviles durante el cónclave para garantizar la privacidad y solemnidad en la elección del nuevo líder de la Iglesia Católica, destacando el significado histórico y el procedimiento rigurosamente secreto que caracteriza este evento.

The Data Surrender Trap: How Enterprises Are Losing Control in the AI Gold Rush
el viernes 06 de junio de 2025 La Trampa de la Entrega de Datos: Cómo las Empresas Pierden el Control en la Fiebre del Oro de la IA

En la era de la inteligencia artificial, las empresas enfrentan grandes riesgos al entregar sus datos a terceros. Explorar las mejores prácticas, estándares abiertos y soluciones tecnológicas permite mantener el control, garantizar la gobernanza y optimizar la innovación sin comprometer la seguridad ni la conformidad.

JavaScript, Scripting and Web Development Pragmatic Book Bundle
el viernes 06 de junio de 2025 Domina JavaScript y el Desarrollo Web con el Bundle Pragmatic de Libros Esenciales

Explora cómo el Bundle Pragmatic de libros sobre JavaScript, scripting y desarrollo web puede transformar tus habilidades tecnológicas, proporcionando recursos actualizados y prácticos que se adaptan a todos los niveles de experiencia.