Stablecoins

d1: Revolucionando el Razonamiento en Modelos de Lenguaje Diffusion con Aprendizaje por Refuerzo

Stablecoins
D1: Scaling Reasoning in Diffusion LLMs via Reinforcement Learning

Explora cómo el novedoso enfoque d1 potencia las capacidades de razonamiento en modelos de lenguaje basados en difusión mediante técnicas avanzadas de aprendizaje supervisado y por refuerzo, impulsando avances en tareas matemáticas y lógicas.

En los últimos años, los modelos de lenguaje grandes (LLMs) han transformado la manera en que las máquinas comprenden y generan texto, destacándose especialmente en tareas complejas que requieren razonamiento avanzado. Tradicionalmente, estos modelos han adoptado un enfoque autoregresivo (AR), generando texto de manera secuencial, palabra por palabra o token por token. Sin embargo, recientemente ha surgido una nueva arquitectura que genera texto de forma no autoregresiva mediante un proceso basado en difusión, conocido como modelos de lenguaje basados en difusión o dLLMs. Aunque estos modelos han igualado o incluso superado en ciertos casos el rendimiento de los AR en tareas de modelado de lenguaje, su capacidad para razonar y mejorar mediante aprendizaje en línea sigue siendo una incógnita. Aquí surge d1, un marco innovador que busca escalar y mejorar las habilidades de razonamiento en los dLLMs mediante la integración de técnicas de aprendizaje supervisado fino (SFT) y aprendizaje por refuerzo (RL).

Con un enfoque diseñado para aprovechar las fortalezas únicas del modelo basado en difusión, d1 representa un avance significativo en la evolución de los LLMs. El proceso comienza con la adaptación de modelos de difusión preentrenados a tareas de razonamiento utilizando un conjunto de datos altamente curado y detallado, llamado s1k. Este dataset contiene mil preguntas de razonamiento cuidadosamente seleccionadas, donde cada pregunta incluye trazas incrementales y verificables del paso a paso de la resolución, permitiendo al modelo no solo aprender a encontrar respuestas correctas, sino también a autocorregirse y perfeccionar su proceso de razonamiento. Este aspecto autoevaluativo es fundamental para garantizar respuestas precisas y confiables, ya que el modelo puede identificar errores en la lógica y retroceder para corregirlos, emulando la manera en que un humano aborda problemas complejos. Sin embargo, maximizar el potencial de los modelos de difusión implica superar un gran desafío: a diferencia de los modelos AR que permiten el cálculo directo de la probabilidad logarítmica para cada secuencia generada debido a su naturaleza secuencial, los dLLMs generan texto de manera iterativa, sin una factorización fácil de la distribución conjunta.

Esta característica dificulta la aplicación directa de métodos clásicos de aprendizaje por refuerzo, como PPO o GRPO, que dependen del uso de estas probabilidades para ajustar los parámetros del modelo. Para superar esta barrera, los investigadores detrás de d1 han desarrollado una novedosa técnica denominada diffu-GRPO. Esta estrategia amplía el método de Policy Gradient para modelos de difusión usando una estimación innovadora de la probabilidad logarítmica basada en la aproximación de campo medio. En términos simples, esta aproximación divide la compleja probabilidad de secuencia en componentes más simples y manejables, permitiendo evaluar y actualizar el modelo de manera eficiente. Otra innovación clave es la incorporación de enmascaramiento aleatorio durante la estimación de probabilidades, lo que genera una variedad de "vistas" perturbadas de las mismas parejas de prompt y respuesta.

Esta diversificación funciona como una forma de regularización que evita el sobreajuste y facilita un aprendizaje estable, permitiendo un mayor número de actualizaciones internas por lote con costos computacionales significativamente reducidos. El beneficio práctico de esta metodología se evidencia en las evaluaciones exhaustivas realizadas en múltiples benchmarks de razonamiento matemático y lógico, como GSM8K, MATH500, Countdown y Sudoku. En estas pruebas, d1-LLaDA, el modelo ajustado con la combinación de SFT y diffu-GRPO, ha alcanzado puntajes superiores a otros dLLMs de última generación e incluso modelos AR de tamaño similar. En particular, sobresale en GSM8K, uno de los desafíos más rigurosos para la capacidad de resolución matemática de un modelo de lenguaje. En la práctica, la ventaja de d1 no solo reside en la precisión final, sino también en su capacidad para exhibir comportamientos intuitivos de razonamiento, similares a las revelaciones momentáneas (“aha moments”) propias de los humanos.

Estas manifestaciones incluyen la capacidad para verificar y corregir cadenas de pensamiento durante la generación de respuestas, una habilidad que refleja una comprensión más profunda y flexible de la tarea en cuestión. Por último, la eficiencia computacional que aporta el diffu-GRPO resulta crucial para la escalabilidad de estos sistemas. Al permitir una mayor cantidad de actualizaciones por lote con menos generaciones en línea, se optimizan tanto el tiempo como los recursos necesarios para entrenar modelos cada vez más grandes y complejos. El desarrollo de d1 representa un paso notable hacia la unificación entre las arquitecturas basadas en difusión y el aprendizaje por refuerzo, abriendo un camino prometedor para futuros modelos que combinen flexibilidad, eficiencia y altos niveles de capacidad analítica y de razonamiento. Su éxito invita a reimaginar el modo en que los sistemas de inteligencia artificial pueden abordar problemas cognitivamente complejos bajo un paradigma no autoregresivo.

En conclusión, la combinación de aprendizaje supervisado detallado y técnicas innovadoras de aprendizaje por refuerzo permite a los modelos de lenguaje basados en difusión alcanzar nuevas alturas en tareas de razonamiento matemático y lógico. d1 no solo muestra mejoras cuantitativas en benchmarks establecidos, sino que también introduce metodologías que amplían la comprensión y el control que los investigadores pueden ejercer sobre estos modelos, lo cual es esencial para su adopción segura y efectiva en aplicaciones del mundo real. Esta línea de investigación promete transformar el paisaje futuro de los modelos de lenguaje, favoreciendo sistemas más robustos, interpretables y potentes.

Trading automático en las bolsas de criptomonedas Compra y vende tu criptomoneda al mejor precio

Siguiente paso
Reverse Engineering Granola to Pull Notes into Obsidian
el viernes 13 de junio de 2025 Cómo Extraer y Sincronizar Notas de Granola en Obsidian: Guía Completa para Usuarios Avanzados

Explora el proceso detallado para integrar notas transcritas desde Granola directamente en Obsidian, aprovechando herramientas avanzadas de reverse engineering y programación para centralizar tu productividad.

Blue Ridge Cos. transitions management business to Willow Bridge
el viernes 13 de junio de 2025 Blue Ridge Cos. transfiere su negocio de gestión a Willow Bridge para potenciar el desarrollo inmobiliario en Carolina del Norte y Carolina del Sur

La transición del portafolio de gestión de propiedades de Blue Ridge Cos. a Willow Bridge representa un movimiento estratégico que fortalecerá la presencia en el mercado multifamiliar del sureste de Estados Unidos, especialmente en Carolina del Norte y Carolina del Sur, al tiempo que Blue Ridge se enfoca en el desarrollo y la optimización de sus activos inmobiliarios a largo plazo.

A currency-market ‘avalanche’ is heading for the U.S. dollar, and the tremors started this week
el viernes 13 de junio de 2025 Avalancha en el mercado cambiario: ¿Está el dólar estadounidense en peligro?

Análisis profundo sobre las recientes fluctuaciones en el mercado de divisas, factores que amenazan la estabilidad del dólar estadounidense y las implicaciones para la economía global y mercados financieros.

COIN declines 3% in after-trading hours as Coinbase Q1 earnings misses estimates
el viernes 13 de junio de 2025 Coinbase enfrenta caída en bolsa tras resultados decepcionantes del primer trimestre

Coinbase experimentó una caída en sus acciones tras publicar ingresos del primer trimestre por debajo de lo esperado, enfrentando retos en un mercado criptográfico volátil y un entorno regulatorio en evolución.

Anchor links copied from project READMEs now add a query parameter
el viernes 13 de junio de 2025 La Controversia de los Parámetros de Consulta en los Enlaces Ancla de los READMEs de GitHub

Explora cómo la inclusión automática de parámetros de consulta en los enlaces ancla de los archivos README en GitHub ha generado debate entre los usuarios, afectando la legibilidad de las URLs y la experiencia de navegación, y descubre por qué este cambio puede tener consecuencias importantes para la comunidad y el uso cotidiano de esta plataforma.

State-Tracer – Visualize Recoil and Jotai State Dependencies
el viernes 13 de junio de 2025 State-Tracer: La Herramienta Revolucionaria para Visualizar Dependencias en Recoil y Jotai

Descubre cómo State-Tracer puede transformar la gestión de estados en React mediante la visualización clara y precisa de dependencias en Recoil y Jotai, facilitando el diseño, mantenimiento y refactorización de aplicaciones complejas.

The Future of Programming
el viernes 13 de junio de 2025 El Futuro de la Programación: La Revolución de la Inteligencia Artificial en el Desarrollo de Software

Explora cómo la inteligencia artificial transformará radicalmente la programación tradicional, revolucionando el proceso de desarrollo y el rol del programador para crear software personalizado y optimizado.