En el ámbito creciente de la inteligencia artificial, los modelos de lenguaje a gran escala (LLM) han transformado la manera en que interactuamos con la tecnología. DeepSeek, un reconocido modelo de código abierto, ha destacado por su arquitectura única y alta calidad de resultados gracias al empleo de mecanismos avanzados como la Atención Latente Multi-cabeza (MLA) y la Mezcla de Expertos (MoE). Sin embargo, a medida que estos modelos aumentan en complejidad y tamaño, la necesidad de sistemas de inferencia eficientes, escalables y asequibles se vuelve imperativa para su despliegue y uso en ambientes reales. En este contexto, SGLang emerge como un innovador framework que consigue igualar el desempeño de DeepSeek en escalas de infraestructura masiva gracias a novedosas optimizaciones y diseño de paralelismo que optimizan el consumo de memoria y la velocidad de procesamiento de tokens. El reto más importante en la inferencia de DeepSeek reside en su compleja arquitectura.
La combinación de MLA y MoE implica un elevado costo computacional y una ingente demanda de memoria para manejar no solo los pesos del modelo, sino también las grandes cantidades de cachés y estados que se generan durante la inferencia. Para afrontar estos desafíos, SGLang desarrolla un enfoque tecnológico que despliega el sistema en un clúster de 12 nodos con 8 GPUs NVIDIA H100 cada uno — un conjunto que permite correr el modelo con una paralelización experta a gran escala, además de la separación entre fases de prefill y decode, conocida como desagregación PD (prefill-decode). En detalle, la arquitectura paralela de SGLang está diseñada para optimizar cada componente clave del modelo DeepSeek. La atención MLA se maneja mediante un paralelismo de datos que elimina la duplicidad de cachés KV entre dispositivos, reduciendo significativamente el consumo de memoria. En las redes de alimentación directa densas, SGLang opta por una paralelización basada en datos en vez de tensorial, ya que evita la fragmentación innecesaria del trabajo y mejora la eficiencia de memoria, especialmente relevante dado el tamaño intermedio de 18,432 características que utiliza DeepSeek-V3.
A su vez, las redes de alimentación directa dispersas de la arquitectura MoE reciben tratamiento con paralelismo experto, distribuyendo los pesos de expertos a través de múltiples GPUs, habilitando así la gestión eficiente de modelos con cientos de expertos y variedad de tokens destinados a cada uno. Un elemento fundamental de la propuesta es la desagregación PD, que separa la ejecución de la fase de prefill de la fase de decode. Tradicionalmente, estos procesos se manejaban conjuntamente, generando cuellos de botella debido a interrupciones y latencias en la generación de tokens. Dividiendo la ejecución en servidores independientes para prefill y decode que se comunican de manera asíncrona con transferencia no bloqueante optimizada vía RDMA, SGLang maximiza la utilización de recursos y reduce las demoras en la generación token por token. En el corazón de la paralelización experta está la integración del sistema DeepEP, desarrollado inicialmente por el equipo DeepSeek, que mejora la comunicación y la asignación dinámicas de los tokens a los expertos adecuados.
DeepEP ofrece modos de despacho adaptados a las diferentes cargas del prefill — optimizado para secuencias largas con máximo rendimiento — y decode — enfocado en mínimo retardo y compatible con CUDA Graph para lanzamientos de kernel eficientes. La desagregación PD permite usar simultáneamente ambos modos en las fases correspondientes, superando limitaciones previas que impedían esta flexibilidad. Junto con DeepEP, DeepGEMM potencia la capacidad de realizar operaciones matriciales agrupadas en MoE, diferenciando kernels con layouts contiguos para entradas dinámicas en prefill y layouts enmascarados para decode. La integración estratégica de estos kernels junto con la reordenación mediante kernels personalizados de Triton mejora la eficiencia del cómputo y reduce la latencia durante la generación de tokens. Otro avance tecnológico relevante es el solapamiento de dos micro-batches (Two-batch Overlap, TBO), esencial para entornos multinodo donde el ancho de banda de comunicación puede limitar la velocidad total.
Al dividir los lotes en subdivisiones que permiten compaginar la comunicación con la computación, SGLang no solo mejora el rendimiento general sino que también reduce el pico de uso de memoria, permitiendo manejar batches más grandes y cargas más balanceadas. El balanceo de carga experto representa otro desafío central en inferencia MoE a gran escala. SGLang incorpora un balanceador de carga experto (EPLB) que utiliza estadísticas de distribución para reasignar expertos dinámicamente, incluyendo la duplicación o agrupación estratégica, mitigando problemas de saturación y subutilización que afectan la latencia y rendimiento. EPLB muestra mejoras significativas en la utilización de GPU y throughput, especialmente conforme el tamaño del clúster crece y la disparidad en la activación de expertos se magnifica. Para gestionar el elevado consumo de memoria en PyTorch y evitar problemas derivados de referencias a tensores, SGLang introduce la clase DisposableTensor que agiliza la liberación inmediata de memoria CUDA, lo que contribuye a disminuir el uso pico de recursos y aumenta la eficiencia de ejecución en ambas fases.
En los ensayos de evaluación realizados en un clúster con 12 nodos y 96 GPUs H100, SGLang logró procesar hasta 52.3 mil tokens de entrada por segundo y 22.3 mil tokens de salida por segundo por nodo para secuencias de 2000 tokens, cifras que se acercan notablemente a las reportadas por DeepSeek en su infraestructura oficial. Más allá del rendimiento, la implementación alcanzó un costo estimado de $0.20 por millón de tokens de salida, aproximadamente una quinta parte del costo oficial de la API de DeepSeek, haciendo del sistema una alternativa más eficiente y accesible.
El análisis detallado de rendimiento desglosado por kernels evidencia áreas donde SGLang iguala o supera el desempeño oficial de DeepSeek, destacando especialmente la mejora en la etapa decode gracias al tamaño aumentardo de batches que permite la paralelización experta y optimizaciones de ruta crítica en comunicaciones y cómputo. El estudio abarcó también escenarios simulados con Multi-Token Prediction (MTP) que, aunque no completamente integrado con DP Attention, mostró que SGLang mantiene una alta eficiencia bajo condiciones realistas. Entre las limitaciones actuales, SGLang reconoce que la optimización para latencia, especialmente tiempo al primer token y latencia entre tokens, requiere atención futura para aplicaciones sensibles en tiempo real. Además, la extensión a secuencias más largas y la compatibilidad con arquitecturas GPU emergentes, tales como Blackwell, son áreas activas de desarrollo. En conjunto, la contribución de SGLang representa un hito para la comunidad open source en la expansión del poder de los LLMs gracias a un sistema de inferencia que no solo replica el rendimiento de DeepSeek, sino que aporta apertura, flexibilidad y eficiencia económica.
Esta labor colaborativa permite a investigadores y desarrolladores explorar nuevas fronteras en despliegue masivo de modelos de inteligencia artificial, abriendo las puertas a aplicaciones más accesibles y robustas en múltiples sectores. Con un diseño de paralelismo meticuloso, uso innovador de desagregación de fases, integración con bibliotecas especializadas como DeepEP y DeepGEMM, y técnicas de manejo de memoria avanzadas, SGLang demuestra que la convergencia entre ingeniería de sistemas y arquitectura de modelos profundos puede crear soluciones capaces de escalar y optimizar al máximo el potencial de tecnologías complejas. La puesta a disposición de código abierto y documentación detallada facilita la evolución y adaptación continua de esta plataforma, marcando un camino prometedor para futuros desafíos y oportunidades en inteligencia artificial a gran escala.