Noticias Legales Ventas de Tokens ICO

Running Llama en Windows 98: El Desafío de Ejecutar IA Moderna en Hardware Retro

Noticias Legales Ventas de Tokens ICO
Running Llama on Windows 98 - 12 days of EXO

Descubre cómo un equipo desafió los límites tecnológicos para ejecutar el modelo Llama en una computadora con Windows 98 y un procesador Pentium II. Explora los desafíos, soluciones y el futuro prometedor de la IA en hardware antiguo.

En un mundo dominado por servidores potentes y centros de datos con cientos de GPUs, la idea de ejecutar inteligencia artificial moderna en un equipo con más de dos décadas de antigüedad puede parecer un sueño imposible. Sin embargo, un equipo de ingenieros ha demostrado que no solo es posible sino que puede abrir la puerta a una nueva era de accesibilidad en la IA. El proyecto consiste en correr Llama, un modelo de lenguaje sofisticado, en una computadora que ejecuta Windows 98 y dispone de un procesador Pentium II. Esta hazaña técnica representa una apuesta apasionante por la descentralización y democratización de la inteligencia artificial. El experimento forma parte de la iniciativa conocida como los 12 días de EXO, y se centró en demostrar que, si un modelo puede funcionar en hardware de 25 años, entonces puede funcionar en casi cualquier lugar.

La compra del equipo no fue trivial: se adquirió una máquina por 118,88 libras en eBay, que resultó ser una joya amarillenta de la era Windows 98, equipada con un procesador Pentium II y 128MB de RAM. Aunque modesta, su infraestructura resultó suficiente para los propósitos del proyecto. Uno de los primeros problemas que surgió fue la incompatibilidad con periféricos modernos. Los teclados y ratones USB actuales simplemente no funcionaban en esta máquina antigua, lo que obligó al equipo a recurrir a periféricos PS/2. Sin embargo, aún en este terreno hubo que innovar: se descubrió que el mouse debía conectarse en el puerto PS/2 número uno y el teclado en el segundo para funcionar correctamente; la configuración opuesta resultó inútil.

Esto revela cómo los detalles técnicos y el entendimiento profundo del hardware son fundamentales para trabajar con tecnología antigua. El siguiente obstáculo fue el traslado de archivos al sistema. En la era actual, el uso de USB o almacenamiento en discos ópticos es común, pero ninguno de esos métodos funcionó eficientemente. Los discos RW no eran reconocidos por el sistema y las unidades USB modernas eran demasiado grandes para ser gestionadas por el sistema de archivos FAT32 del Windows 98. La solución fue tan clásica como efectiva: FTP.

Un servidor FTP se configuró en un MacBook Pro moderno, con un adaptador USB-C a Ethernet conectado a la computadora vintage. Ambos dispositivos tuvieron sus direcciones IP estáticas asignadas para que se pudieran comunicar. La transferencia de archivos mediante FTP resultó ser sorprendentemente fluida y garantizó la integridad de los datos, con la advertencia de que los archivos ejecutables debían transferirse en modo binario para evitar errores de ejecución. Uno de los mayores desafíos recayó en la compilación del código necesario para ejecutar el modelo Llama. Las herramientas modernas como mingw no pudieron producir ejecutables compatibles debido a instrucciones incompatibles con el procesador Pentium II, como las CMOV inexistentes en CPUs anteriores al Pentium Pro.

Por lo tanto, el equipo tuvo que recurrir a herramientas clásicas: Borland C++ 5.02. Esta IDE y compilador, con 26 años de antigüedad, aún funciona en Windows 98 y es compatible con un subconjunto de C conocido y la vieja sintaxis que exige que todas las variables se declaren al inicio de las funciones. Trabajar con un entorno tan limitado presentó numerosas dificultades, especialmente porque las novedades del estándar C99 no estaban disponibles y se tenían que reescribir partes del código para ajustarse a estas peculiaridades. En este contexto, el trabajo de Andrej Karpathy fue fundamental.

Su proyecto llama2.c, una implementación compacta de aproximadamente 700 líneas en puro C capaz de ejecutar inferencia con modelos basados en la arquitectura Llama 2, fue la base para la adaptación. El equipo adaptó el código para hacerlo compatible con Windows 98 y el Pentium II realizando cambios tales como reemplazar el tipo de dato "long long" con un tipo personalizado denominado "DLONGWORD", mover todas las declaraciones de variables al inicio de las funciones, simplificar la carga de datos desde el disco a la memoria para evitar fallos de segmentación y reemplazar funciones de temporización como "clock_gettime" con la API de Windows "GetTickCount". Tras superar todos estos obstáculos, el modelo Llama pudo correr en la máquina vintage ejecutando un modelo con 260,000 parámetros, generando textos creativos y complejos, incluyendo una historia inspirada en Sleepy Joe. El rendimiento, si bien no alcanza las velocidades vertiginosas de las modernas GPUs, fue impresionante considerando el hardware antiguo: 39.

31 tokens por segundo para el pequeño modelo stories260K y alrededor de 0.0093 tokens por segundo para un modelo Llama 3.2 con 1 billón de parámetros simulados parcialmente. Estos resultados ponen en perspectiva lo que es posible con mucha dedicación y adaptación técnica, validando la idea de que la frontera de la IA no está exclusivamente ligada a hardware último modelo. Más allá del experimento en sí, esta iniciativa abre una ventana a desarrollos futuros como BitNet, una arquitectura transformer que utiliza pesos ternarios.

Esta tecnología convierte la multiplicación matricial pesada en operaciones de adición y sustracción gracias a que los pesos solo pueden ser 0, -1 o 1, lo que reduce drásticamente la cantidad de bits necesarios para almacenar el modelo a aproximadamente 1.58 bits por peso. Este enfoque no solo permitiría que modelos altamente complejos que usualmente requieren gigas de RAM y almacenamiento puedan ejecutar en sistemas con recursos muy limitados, sino que también mejora la eficiencia energética, un aspecto vital en hardware antiguo y en dispositivos móviles actuales. Además, las pruebas preliminares con BitNet realizadas en CPU modernas como el M2 Ultra y el Intel i7 muestran velocidades de generación de texto superiores a modelos de precisión completa, con un modelo de 7 mil millones de parámetros ocupando apenas 1.38GB, lo suficientemente pequeño para caber en discos duros con capacidades similares a las de las antiguas PC.

La propuesta del equipo EXO es clara: democratizar la IA y liberarla de la dependencia exclusiva de grandes centros de datos o hardware especializado. Interpretan que el futuro de la inteligencia artificial radica en su portabilidad y accesibilidad, y que la innovación en arquitectura de modelos y optimización de código puede llevar a una verdadera revolución tecnológica. Esta perspectiva invita a que más entusiastas y desarrolladores practiquen la ejecución de modelos en hardware retro que abarque desde PCs antiguas hasta consolas de videojuegos o teléfonos móviles obsoletos. Para quienes se interesen en experimentar con modelos de IA en máquinas antiguas o alternativas, el código fuente adaptado para Windows 98 está disponible en GitHub en el repositorio llama98.c, y la comunidad está abierta para compartir conocimientos y colaborar a través de plataformas como Discord.

El proyecto Running Llama en Windows 98 no solo es un ejercicio nostálgico, sino un ejemplo contundente de la resiliencia, creatividad y visión que pueden convertir equipos aparentemente obsoletos en máquinas capaces de realizar tareas de inteligencia artificial avanzadas. Supone, además, un recordatorio de que la tecnología del pasado puede tener relevancia en el presente y futuro, especialmente en cuanto a hacer la IA más inclusiva, eficiente y distribuida. Mientras el mundo digital avanza hacia una dependencia cada vez mayor de grandes infraestructuras, iniciativas como esta invitan a reflexionar sobre el valor del ingenio y el aprovechamiento óptimo de recursos limitados, abriendo nuevos caminos para que la inteligencia artificial sea verdaderamente accesible para todos.

Trading automático en las bolsas de criptomonedas Compra y vende tu criptomoneda al mejor precio

Siguiente paso
Show HN: YAMLResume, Open Source Node.js Tool to Create Resumes as Code in YAML
el miércoles 11 de junio de 2025 YAMLResume: La Revolución en la Creación de Currículums con Código Abierto y YAML

Descubre cómo YAMLResume transforma la creación de currículums al combinar la simplicidad de YAML con la potencia de LaTeX, ofreciendo una solución moderna, personalizable y profesional para gestionar y diseñar tu currículum vitae.

JHipster Release v8.11.0
el miércoles 11 de junio de 2025 JHipster v8.11.0: Innovaciones Clave y Guía Completa para la Actualización

Explora las últimas mejoras y características del lanzamiento JHipster v8. 11.

Grand Theft Auto VI Website
el miércoles 11 de junio de 2025 Grand Theft Auto VI: Todo lo que necesitas saber sobre el regreso a Vice City y la ciudad de Leonida

Descubre los detalles más importantes sobre Grand Theft Auto VI, su ambientación, personajes, historia y fecha de lanzamiento, así como la nueva experiencia que Rockstar Games promete para los fanáticos de esta icónica saga de videojuegos.

Apple Tries to Save $20B Google Search Deal by Saying It's Unnecessary
el miércoles 11 de junio de 2025 Apple y Google: ¿Una alianza millonaria en peligro? La estrategia de Apple para salvar un acuerdo de $20 mil millones

Exploramos el complejo panorama de la alianza entre Apple y Google, la negociación multimillonaria que está en entredicho y las razones estratégicas que Apple expone para justificar la posible irrelevancia futura del acuerdo.

I can't understand Apple's Critical Alert policy
el miércoles 11 de junio de 2025 Comprendiendo la Política de Alertas Críticas de Apple: Desafíos y Controversias para Desarrolladores

Exploramos en profundidad la política de Apple sobre alertas críticas, los desafíos que enfrentan los desarrolladores para acceder a esta función y su impacto en aplicaciones de salud y recordatorios esenciales.

A Recipe for Success: Cooking Up Repeatable Agentic Workflows
el miércoles 11 de junio de 2025 Receta para el Éxito: Cómo Crear Flujos de Trabajo Agenticos Repetibles que Transforman tu Productividad

Descubre cómo los flujos de trabajo agenticos repetibles están revolucionando la forma en que interactuamos con la inteligencia artificial para optimizar procesos, incrementar la eficiencia y potenciar el trabajo en equipo mediante la tecnología de agentes AI y el Protocolo de Contexto de Modelos (MCP).

Lining medical stents with hairlike fuzz could fend off infections
el miércoles 11 de junio de 2025 Innovadora tecnología de stents médicos revestidos con cilios para prevenir infecciones

Descubre cómo una revolucionaria técnica que utiliza estructuras similares a pelos en los stents médicos podría transformar el tratamiento de infecciones y prolongar la vida útil de estos dispositivos implantables, mejorando la calidad de vida de millones de pacientes.