Startups Cripto

Entrenamiento de DeepSeek-R1: Innovación y Eficiencia que Revolucionan la Inteligencia Artificial

Startups Cripto
What Went into Training DeepSeek-R1? – Epoch AI

Exploración detallada sobre el proceso de entrenamiento del modelo de razonamiento DeepSeek-R1, sus avances tecnológicos, etapas de desarrollo y las implicaciones en el rendimiento y el costo dentro del mundo de la inteligencia artificial avanzada.

La reciente liberación de DeepSeek-R1, un modelo de razonamiento con pesos abiertos que iguala el desempeño del reconocido modelo o1 de OpenAI en diversas pruebas, ha generado una gran atención en el ámbito de la inteligencia artificial. Este fenómeno no solo se debe a su rendimiento competitivo, sino también al debate que ha surgido en torno a los costos y la metodología empleada para entrenarlo. Es fundamental entender el proceso y los componentes que hicieron posible desarrollar un modelo con estas características, desde su arquitectura hasta las fases de entrenamiento que incluyen pre-entrenamiento y aprendizaje por refuerzo. DeepSeek-R1 no fue construido desde cero; su base es DeepSeek v3, una versión anterior lanzada en diciembre de 2024 que integra innovaciones significativas tanto en estructura como en eficiencia. Este modelo se caracteriza por una arquitectura de mezcla de expertos (MoE, por sus siglas en inglés) muy dispersa, con un total impactante de 671 mil millones de parámetros, aunque apenas 37 mil millones activos para cada token procesado.

La estrategia de expertos se divide en un experto compartido que siempre está activo para todos los tokens y 256 expertos adicionales que se activan selectivamente, con ocho de ellos involucrados en el procesamiento de cada token. Esta elección permite una optimización y balance en la carga de cómputo, ayudando a mantener el rendimiento elevado mientras se controla la complejidad de cómputo. Una de las innovaciones técnicas destacadas en DeepSeek v3 es el mecanismo denominado atención latente multi-cabezal (MLA), diseñado para reducir el tamaño del caché de claves y valores sin la merma en desempeño común en otras técnicas habituales, tales como la atención por consulta agrupada o multi-consulta. MLA aumenta el costo aritmético durante la decodificación, haciendo que DeepSeek v3 sea un modelo atípico que depende más de operaciones aritméticas que de la memoria durante la inferencia con contextos largos. Por ejemplo, dicha atención aritmética se iguala a la multiplicación de parámetros y acumulaciones en contextos de alrededor de 5000 tokens, una cifra mucho menor comparada con modelos como Llama 3 70B que alcanzan esa equivalencia solo a los 50.

000 tokens. El avance de R1 respecto a v3 no recae en cambios arquitectónicos internos, sino en la incorporación de técnicas de aprendizaje por refuerzo para optimizar sus capacidades de razonamiento. Este método es más efectivo cuando el modelo de base, como v3, ya muestra un rendimiento intrínseco elevado, facilitando señales más consistentes durante el entrenamiento reforzado. El entrenamiento de DeepSeek-R1 se divide claramente en dos fases: pre-entrenamiento y aprendizaje por refuerzo, cada una con características y desafíos únicos. La fase de pre-entrenamiento de DeepSeek-R1 corresponde a la construcción de DeepSeek v3.

Este proceso implicó el uso de precisión mixta FP8 y un clúster de 2048 GPUs H800, donde el procesamiento de un billón de tokens demandaba aproximadamente 3.7 días, equivalentes a unas 180.000 horas de GPU H800. Con un dataset de entrenamiento de cerca de 14.8 billones de tokens, el costo estimado en horas GPU alcanzó 2.

66 millones, con un valor aproximado de 5.3 millones de dólares al asignar un precio de 2 dólares por hora GPU. Aunque estas cifras han sido objeto de escepticismo, resultan razonables para la escala y arquitectura utilizada. Uno de los aspectos más críticos y complejos durante esta fase fue la gestión de la paralelización entre expertos. Con 64 formas de paralelismo experto, la comunicación entre GPUs se volvió un punto delicado debido al necesario intercambio masivo de datos para pasar el flujo residual entre múltiples expertos activos en diferentes ubicaciones.

La volumetría estimada de comunicaciones alcanzó niveles sorprendentes, tanto así que la transferencia teórica de estos activaciones podría llevar más tiempo que toda la duración del entrenamiento en un entorno ideal con redes InfiniBand. Para contrarrestar esta limitación, DeepSeek implementó un solapamiento eficiente entre cálculos y comunicaciones, agrupó expertos con activaciones correlacionadas en posiciones topológicas cercanas para aprovechar conexiones NVLink de mayor velocidad y optimizó su configuración para reducir el impacto de latencias. Pese a estos esfuerzos la utilización efectiva (MFU) durante el entrenamiento preentrenamiento apenas superó el 23%, lo que pone de relieve la complejidad y menor eficiencia práctica de entrenar modelos MoE en comparación con lo que indican las métricas teóricas aritméticas. Este dato ayuda a entender que la relación costo-beneficio del entrenamiento de DeepSeek v3 no es una subestimación, sino que evidencia el alto esfuerzo computacional detrás de su desarrollo. La segunda etapa vital fue la aplicación del aprendizaje reforzado para convertir a DeepSeek v3 en DeepSeek-R1, el modelo pensado para el razonamiento avanzado.

La técnica empleada, llamada optimización de política relativa grupal (GRPO), es una variante más económica que el popular PPO, y se basa en muestrear lotes de preguntas a las que el modelo responde generando varias posibles respuestas, asignando recompensas bien mediante reglas automatizadas o con la ayuda de otro modelo de lenguaje para la evaluación. Estas recompensas se normalizan para estabilizar el entrenamiento, y el modelo ajusta sus parámetros con gradientes que promueven las respuestas de alto valor esperado y desalientan la desviación excesiva del comportamiento previamente aprendido. Los parámetros clave para este proceso incluyen un tamaño de lote B de 1024, generación de 64 respuestas por entrada y una longitud promedio L de tokens cercana a 4000 por secuencia, lo que convierte esta fase en un consumo masivo de cálculos. Un análisis profundo plantea que el costo total en FLOPs para esta fase de aprendizaje por refuerzo sería aproximadamente de 6.1e23 FLOPs, lo que traducido a horas y costos de GPU se ubica alrededor del millón de dólares, menor que los costos de preentrenamiento pero no despreciable.

La correlación entre tokens serialmente generados y la velocidad de inferencia estimada en 50 tokens por segundo permite concluir que esta fase pudo realizarse en una ventana razonable de entre 7 y 8 días en el clúster antes mencionado, manteniendo la coherencia en los esfuerzos computacionales. Después del entrenamiento por refuerzo inicial, DeepSeek aplica una etapa adicional conocida como cold-start, que utiliza un conjunto de datos curados, incluyendo resultados corregidos del R1-Zero, para afinar el modelo y estabilizar la calidad de las cadenas de pensamiento y la legibilidad humana de las respuestas generadas. Posteriormente se realiza un refinamiento supervisado con unas 600 mil muestras de razonamientos para mejorar aún más la precisión. Estas etapas finas consumen relativamente pocos recursos en comparación con las anteriores, pero son esenciales para afinar el modelo y adaptar su rendimiento a casos prácticos. En cuanto a rendimiento, DeepSeek-R1 compite estrechamente con OpenAI o1, con resultados de benchmarks donde ambos se superan mutuamente en distintas pruebas, mostrando una equivalencia práctica que promete elegir según el uso y costos.

Sin embargo, el factor diferenciador clave radica en los precios de acceso para el consumidor. DeepSeek-R1 se ofrece a un costo de aproximadamente 2.2 dólares por millón de tokens de salida, frente a los 60 dólares por millón de tokens de o1, una diferencia sustancial que marca la ventaja competitiva de DeepSeek en el mercado. Esta diferencia significativa en el precio no se explica tanto por una superioridad intrínseca de eficiencia del modelo, sino más bien por un margen comercial más ajustado de parte de DeepSeek y posiblemente una estrategia para ganar adopción en un sector dominado por grandes márgenes de laboratorios estadounidenses. Se prevé que esta dinámica influirá en la tensión competitiva y en las políticas de precios de los proveedores líderes, sobre todo ante la presión de laboratorios chinos y otras entidades que buscan entrar con propuestas económicamente atractivas y técnicamente sólidas.

En conclusión, el entrenamiento de DeepSeek-R1 revela un panorama muy avanzado en la ingeniería de modelos de inteligencia artificial, donde arquitecturas innovadoras, optimizaciones profundas en hardware y métodos eficientes de aprendizaje por refuerzo se combinan para generar modelos razonadores potentes y accesibles. Más allá de las controversias iniciales sobre costos, los datos técnicos y estimaciones sugieren que los valores reportados son coherentes con la envergadura y sofisticación del entrenamiento efectuado. El horizonte de la inteligencia artificial se ve influenciado por estas estrategias que buscan equilibrio entre calidad, costo y accesibilidad, configurando la competencia global y el futuro de los modelos de lenguaje avanzados.

Trading automático en las bolsas de criptomonedas Compra y vende tu criptomoneda al mejor precio

Siguiente paso
Tech oligarchs impose their prophetic visions
el viernes 16 de mayo de 2025 El dominio de los oligarcas tecnológicos: cómo sus visiones proféticas moldean nuestro futuro

Exploración profunda del impacto que tienen los oligarcas tecnológicos de Silicon Valley en la configuración de leyes, instituciones y cultura, transformando sus visiones futuristas en realidades tangibles que afectan todos los ámbitos de la sociedad.

Trinitite
el viernes 16 de mayo de 2025 Trinitita: El legado vidrioso del primer ensayo nuclear y su impacto científico y cultural

Explora la formación, composición y la importancia forense y cultural de la trinitita, el vidrio residual generado por la primera prueba atómica en 1945 en Nuevo México, así como sus diversas variaciones y aplicaciones en la investigación moderna.

NSA sought to curb university cryptography research in 1983 (MIT report, PDF)
el viernes 16 de mayo de 2025 La Controversia de la NSA y la Investigación en Criptografía Universitaria en 1983

Explora cómo en 1983 la NSA intentó limitar la investigación en criptografía en universidades estadounidenses, un capítulo crucial en la historia de la seguridad informática y la libertad académica, resaltando el impacto de estas acciones en el desarrollo tecnológico y la política de información.

Ignatius van der Stock (1636 – 1668) – Paintings, Drawings, Prints
el viernes 16 de mayo de 2025 Ignatius van der Stock: Maestro del Siglo XVII en Pinturas, Dibujos y Grabados

Ignatius van der Stock fue un destacado artista del siglo XVII ligado a la Escuela del Bosque de Soignes. Su legado abarca una importante colección de pinturas, dibujos y grabados que reflejan su maestría y sensibilidad artística.

Opinion: Business co-founders in tech startups are less valuable than they think
el viernes 16 de mayo de 2025 La verdad sobre el valor real de los cofundadores de negocio en startups tecnológicas

Explora por qué los cofundadores de negocio en startups tecnológicas suelen sobreestimar su valor, cuáles son sus verdaderas contribuciones y cómo pueden convertirse en activos imprescindibles para el éxito de una empresa basada en tecnología.

Low Background Steel
el viernes 16 de mayo de 2025 Low Background Steel: El Acero Histórico Libre de Contaminación Radioactiva y su Relevancia en la Era Digital

Explora el valor único del Low Background Steel como material histórico libre de contaminación radioactiva, su origen, aplicaciones y la analogía con la preservación de contenido humano auténtico en la era de la inteligencia artificial.

2 Magnificent AI Stocks Down 27% and 32% That Investors Will Wish They Bought on the Dip
el viernes 16 de mayo de 2025 Acciones de IA en Oferta: Por Qué Es el Momento de Invertir en Alphabet y Meta Tras Caídas del 27% y 32%

Descubre por qué las recientes caídas en el precio de las acciones de Alphabet y Meta representan una oportunidad única para inversores que buscan aprovechar la disrupción tecnológica impulsada por la inteligencia artificial, a pesar de los desafíos regulatorios y la volatilidad del mercado.