Realidad Virtual

INTELLECT-2: El Primer Modelo de 32 Mil Millones de Parámetros Entrenado con Aprendizaje por Refuerzo Descentralizado a Nivel Mundial

Realidad Virtual
Intellect-2 Release: The First 32B Model Trained Through Globally Distributed RL

INTELLECT-2 marca un avance revolucionario en la inteligencia artificial al ser el primer modelo de lenguaje con 32 mil millones de parámetros entrenado mediante aprendizaje por refuerzo distribuidor a nivel global. Su infraestructura innovadora y enfoque descentralizado abren un nuevo paradigma para el entrenamiento de grandes modelos de inteligencia artificial, destacando mejoras en estabilidad, eficiencia y accesibilidad.

El mundo de la inteligencia artificial está en constante evolución y el lanzamiento de INTELLECT-2 representa un hito trascendental en esta evolución. INTELLECT-2 es el primer modelo de 32 mil millones de parámetros que se ha entrenado mediante un sistema de aprendizaje por refuerzo (RL, por sus siglas en inglés) completamente descentralizado y globalmente distribuido. Esta innovación rompe con las convenciones tradicionales en el entrenamiento de modelos de lenguaje, abriendo la puerta a nuevas posibilidades y desafíos en el diseño y ejecución de infraestructuras para IA a gran escala. A diferencia de los métodos convencionales que requieren grandes clusters de GPUs centralizados y conexiones ultrarrápidas para garantizar procesos síncronos en tiempo real, INTELLECT-2 utiliza un enfoque asincrónico y permissionless que permite a una amplia variedad de contribuyentes participar en la generación de datos y la actualización de modelos de manera colaborativa. Esto significa que personas y organizaciones de cualquier parte del mundo pueden aportar potencia computacional sin necesidad de estar en una infraestructura controlada y cerrada.

El éxito de INTELLECT-2 se basa en la construcción de un ecosistema tecnológico robusto y novedoso. El corazón de esta innovación es PRIME-RL, un framework diseñado expresamente para manejar las complejidades del aprendizaje por refuerzo distribuido de forma asincrónica. PRIME-RL desacopla la generación de datos o rollouts, el entrenamiento del modelo y la difusión de los pesos del modelo hacia los nodos de inferencia, lo que permite operar en redes heterogéneas y relativamente poco confiables. Esta meticulosa separación de tareas ayuda a maximizar la eficiencia y la resiliencia del sistema. Adicionalmente, INTELLECT-2 integra componentes como TOPLOC y SHARDCAST.

TOPLOC es una técnica basada en hashing con sensibilidad local que valida la integridad y autenticidad de los rollouts generados por los nodos, asegurándose de que no haya manipulaciones ni alteraciones de precisión en las inferencias realizadas en hardware diverso e incluso no determinista. Por otro lado, SHARDCAST se ocupa de la distribución eficiente de los pesos del modelo a través de una red en forma de árbol que se basa en HTTP, lo que permite una propagación rápida y escalable incluso en entornos distribuidos globalmente. El rigor técnico no termina con la innovación en infraestructura. El equipo detrás de INTELLECT-2 ha desarrollado modificaciones a las recetas estándar de entrenamiento por refuerzo para garantizar la estabilidad y eficacia del aprendizaje a gran escala. Entre estas mejoras destaca la inclusión de un clipping de gradiente bidireccional (Two-Sided GRPO Clipping) que mitiga la aparición de picos de gradientes inestables durante el proceso.

Además, combinan técnicas avanzadas de filtrado de datos, tanto offline como online, para seleccionar tareas que resulten suficientemente desafiantes y que potencien el aprendizaje del modelo en cada iteración. La base de datos utilizada para entrenar a INTELLECT-2 es extensa y cuidadosamente curada, con cerca de 285 mil tareas verificables que incluyen problemas de matemáticas y programación. Esta riqueza de datos está acompañada de un sistema de recompensas binario combinado con métricas de penalización por longitud, lo que permite a los usuarios ajustar el presupuesto de tokens de razonamiento durante la inferencia, otorgando mayor control y adaptabilidad. Los experimentos realizados durante las fases principales del entrenamiento, denominados TARGET-SHORT y TARGET-LONG, demostraron que la combinación de comunicación asincrónica y superposición con computación permite un aprovechamiento eficiente de los recursos disponibles. El modelo mostró mejoras significativas en tareas de matemáticas y codificación, superando al modelo predecesor QwQ-32B, aunque sus desarrolladores reconocen que para alcanzar saltos cuantitativos aún más marcados será necesario combinar bases de modelos más avanzados y fuentes de datos de mayor calidad.

Lo más notable de INTELLECT-2 es lo que representa en términos más amplios para el desarrollo de la inteligencia artificial: un cambio de paradigma hacia la descentralización del entrenamiento por aprendizaje por refuerzo. Esta técnica es inherentemente asincrónica, lo que la hace más compatible que nunca con un entorno de computación global y heterogéneo. De esta forma, se democratiza la contribución a la creación de modelos avanzados, abriendo las puertas para un acceso más amplio y un avance acelerado en la investigación de inteligencia artificial abierta y colaborativa. El futuro que plantea INTELLECT-2 es prometedor y está lleno de retos. El equipo de Prime Intellect está centrado en aumentar la proporción de cómputo de inferencia frente al de entrenamiento, al reconocer que la inferencia es altamente paralelizable y libre de comunicaciones, por lo que permite distribuir mucho más la carga de trabajo.

Implementar llamadas a herramientas, como búsquedas web o intérpretes de Python, junto con la capacitación en escenarios de multisesión y multi-turno, expandirá la utilidad del modelo para aplicaciones científicas y de investigación más profundas. Además, se vislumbra una mayor colaboración comunitaria mediante la creación y crowdsourcing de tareas de aprendizaje por refuerzo, facilitado por la naturaleza open-source de esta iniciativa. Otro aspecto a destacar es el desarrollo de métodos como DiLoCo para fusionar modelos entrenados de forma independiente, elevando aún más la capacidad y complejidad de los sistemas descentralizados. INTELLECT-2 no solo representa un avance en términos tecnológicos, sino que también ejemplifica un enfoque filosófico y estratégico hacia la inteligencia artificial: la construcción de modelos frontera mediante cooperación abierta con la comunidad global. Esta visión disruptiva tiene el potencial de acelerar el desarrollo de sistemas de razonamiento avanzados y prácticas éticas en el desarrollo de AGI (Inteligencia Artificial General) en un entorno distribuido y transparente.

Con la liberación de INTELLECT-2, junto con sus códigos, datos y documentación, el equipo promueve un ecosistema de investigación descentralizado y colaborativo, proporcionando a investigadores y entusiastas las herramientas para continuar innovando en esta área emergente. El impacto de esta iniciativa podría redefinir cómo se concibe y se practica el entrenamiento de modelos de lenguaje a gran escala, ampliando horizontes para la inteligencia artificial democratizada y sostenible. En conclusión, INTELLECT-2 no solo es una hazaña técnica sino un símbolo de la transformación que la comunidad de inteligencia artificial empezará a abrazar: un entrenamiento global distribuido, caminos asincrónicos, validaciones colaborativas y una comunidad abierta y activa dirigida hacia razonar con mayor profundidad y precisión. Sin duda, su lanzamiento marca el inicio de una nueva era donde el poder computacional y el conocimiento se comparten más allá de las fronteras y las limitaciones de infraestructura centralizadas tradicionales.

Trading automático en las bolsas de criptomonedas Compra y vende tu criptomoneda al mejor precio

Siguiente paso
Best CD rates today, May 9, 2025 (up to 4.40% APY return)
el lunes 16 de junio de 2025 Las mejores tasas de certificados de depósito (CD) en mayo de 2025: Cómo obtener hasta un 4.40% de rendimiento anual

Descubre las tasas más competitivas de certificados de depósito (CD) en mayo de 2025 y aprende cómo elegir la mejor opción para asegurar y rentabilizar tus ahorros con hasta un 4. 40% APY.

Scraperr – A Self Hosted Webscraper
el lunes 16 de junio de 2025 Scraperr: La Solución Definitiva para el Web Scraping Autoalojado

Explora Scraperr, una herramienta poderosa y flexible para realizar web scraping de manera autoalojada que permite la extracción precisa de datos web sin necesidad de programar. Aprende cómo funciona, sus características destacadas y mejores prácticas para maximizar su potencial en tus proyectos.

Well-Known Investor Is Leaning Towards Holding Alphabet Inc. (GOOG) Stock
el lunes 16 de junio de 2025 Inversor Reconocido Opta por Mantener Acciones de Alphabet Inc. (GOOG) a Pesar de Desafíos Recientes

El influyente inversor Jim Lebenthal manifiesta su inclinación a mantener las acciones de Alphabet Inc. (GOOG) tras una caída en su cotización, señalando el valor a largo plazo y la fortaleza financiera de la compañía frente a desafíos temporales y cambios en el mercado tecnológico.

Lithia Motors, Inc. (LAD): A Bull Case Theory
el lunes 16 de junio de 2025 Lithia Motors, Inc. (LAD): Un Análisis Profundo del Caso Alcista para Inversionistas

Explora el potencial de crecimiento y las fortalezas competitivas de Lithia Motors, Inc. (LAD), líder norteamericano en concesionarios automotrices, y descubre por qué su estrategia de adquisición y enfoque en servicios recurrentes la convierten en una opción atractiva para inversores a largo plazo.

I Saved $10K in 100 Days — This Money-Saving Hack Can Grow Your Wealth
el lunes 16 de junio de 2025 Cómo Ahorré $10,000 en 100 Días: El Método de Ahorro Que Puede Impulsar Tu Patrimonio

Descubre una innovadora estrategia de ahorro que te permite alcanzar metas financieras ambiciosas en tiempo récord. Aprende cómo adaptar este método a tu presupuesto y aprovechar alternativas digitales para maximizar tus ahorros y hacer crecer tu patrimonio personal.

Title of work deciphered in sealed Herculaneum scroll via digital unwrapping
el lunes 16 de junio de 2025 Descifran el título de una obra en un rollo sellado de Herculano mediante desenrollado digital

El primer título y autor identificados en un antiguo pergamino de Herculano gracias a avanzadas técnicas digitales, ofreciendo nuevas perspectivas sobre la filosofía epicúrea y el legado de Philodemo.

Burrito Now, Pay Later
el lunes 16 de junio de 2025 La Revolución del 'Burrito Now, Pay Later': Cómo la Financiación a Corto Plazo Está Transformando el Mercado Gastronómico

Explora cómo la innovadora modalidad 'Burrito Now, Pay Later' impulsa la eficiencia financiera en el sector gastronómico, revolucionando el acceso al crédito de consumidores y comerciantes mediante la securitización y la ingeniería financiera en mercados contemporáneos.