El mundo de la inteligencia artificial (IA) ha experimentado avances impresionantes en los últimos años, especialmente en la creación de entornos virtuales capaces de aprender y adaptarse en tiempo real. Sin embargo, la gran mayoría de los modelos se han enfocado hasta ahora en simulaciones para un solo jugador, limitando la interacción y la complejidad de las experiencias multijugador. Multiverse surge como una innovación disruptiva al presentar el primer modelo mundial multijugador impulsado por IA, un hito que promete cambiar radicalmente la forma en que entendemos y desarrollamos experiencias colaborativas en ambientes digitales. Detrás de Multiverse se encuentra un equipo conformado por exmiembros de la unidad 8200 y egresados de las startups tecnológicas líderes en Israel, que han aplicado un pensamiento basado en primeros principios para resolver el desafío histórico de crear mundos generados por IA donde múltiples jugadores pueden interactuar de manera simultánea y coherente. Este proyecto no solo representa un avance técnico sino también una nueva frontera para la inteligencia artificial aplicada a la recreación y al desarrollo de los videojuegos.
La base para entender Multiverse radica en analizar primero los modelos de un solo jugador existentes. Tradicionalmente, estos modelos reciben secuencias de cuadros de video y las acciones de un usuario - por ejemplo, pulsaciones de teclas - para predecir los próximos fotogramas. Esto se logra mediante una combinación precisa de componentes: un embebedor de acciones que transforma las entradas del jugador en vectores entendibles para la IA, una red de denoising basada en difusión que genera cuadros futuros con base en las acciones y el contexto previo, y un upsampler opcional que mejora la resolución y los detalles de la imagen final. Sin embargo, trasladar esta arquitectura a un entorno multijugador presenta desafíos únicos, principalmente la necesidad de mantener una consistencia interna entre las perspectivas de los jugadores que comparten un mismo mundo. Por ejemplo, cuando un vehículo adelanta o colisiona con otro, ambos jugadores deben percibir exactamente el mismo evento desde su vista particular para garantizar coherencia y realismo en la experiencia de juego.
Para lograr esta sincronización, el equipo de Multiverse rediseñó fundamentalmente la estructura del modelo. En lugar de procesar las acciones y los cuadros de cada jugador por separado, el modelo fusiona las acciones en un solo vector conjunto y procesa simultáneamente las imágenes apilándolas en el eje de los canales de color, lo que permite a la red neuronal analizar en conjunto las dos perspectivas desde las primeras capas de procesamiento. Esta metodología aprovecha la arquitectura tipo U-Net del modelo de difusión, la cual está compuesta principalmente por capas convolucionales y deconvolucionales que analizan patrones espaciales en las imágenes. Al colocar las dos vistas como canales unidos, el sistema puede crear una representación integrada del entorno que refleja con precisión la interacción multijugador, algo que no sería posible si las imágenes simplemente se apilaran verticalmente, pues eso retrasaría la integración de ambas perspectivas hasta las capas intermedias del procesamiento. Otro aspecto crucial para la precisión y realismo del modelo en tiempo real es la captura eficiente del contexto temporal, especialmente en juegos de conducción donde la cinemática del vehículo y el movimiento relativo entre jugadores son esenciales para la predicción de eventos.
Multiverse implementa un sistema inteligente de muestreo temporal, en el cual utiliza las últimas cuatro imágenes consecutivas para captar las rápidas variaciones en aceleración y dirección, y combina estas con un muestreo más espaciado de cuadros más antiguos para detectar movimientos relativos lentos, como un adelantamiento entre vehículos, que suelen suceder a velocidades cercanas a cinco kilómetros por hora. De esta manera, el modelo puede aprender tanto la dinámica individual como la interacción entre jugadores en un contexto espacial y temporal más amplio sin comprometer la eficiencia. Entrenar un modelo multijugador con estas características implicó desafíos adicionales. La interacción entre jugadores ocurre en una escala temporal más amplia que la típica para simulaciones de un solo jugador. Mientras que modelos tradicionales predicen eventos a corto plazo, por ejemplo a 0.
25 segundos hacia adelante, Multiverse debió extender su horizonte de predicción hasta quince segundos para capturar comportamientos complejos y eventos colaborativos dentro de la simulación. Para alcanzar este nivel de complejidad, el equipo aplicó técnicas de aprendizaje curricular, aumentando progresivamente el tiempo de predicción durante el entrenamiento. Este enfoque permitió que el modelo primero dominara aspectos básicos como geometría y dinámica del entorno, para luego enfocarse en la interacción entre jugadores y la permanencia de objetos a largo plazo. Este proceso de entrenamiento requirió también una solución técnica al problema de limitaciones de memoria de las tarjetas gráficas, especialmente cuando se procesan predicciones autoregresivas sobre muchas imágenes consecutivas. A través de una técnica de paginación durante la predicción, Multiverse carga y procesa datos en segmentos, descartando información obsoleta fuera de la ventana de contexto, lo que optimiza significativamente el uso de memoria sin sacrificar la precisión del modelo.
Para alimentar y validar multitudes de datos exigidos por este innovador sistema, el equipo seleccionó Gran Turismo 4 como entorno de prueba y fuente de datos. Gran Turismo es un título emblemático que combina realismo y complejidad en la conducción, ideal para estudiar dinámicas de juego multijugador. Debido a limitaciones del juego original, que no permite correr carreras uno contra uno en pantalla completa en el circuito Tsukuba, fue necesario realizar una ingeniería inversa y modificaciones que habilitaran esta modalidad para la grabación de datos. La metodología para la recolección de información fue innovadora: utilizando el sistema de repetición del juego, grabaron dos repeticiones por carrera desde la perspectiva de cada jugador, sincronizando después estos videos para generar un dataset coherente y alineado temporalmente. Un reto adicional fue la captura de las acciones del jugador, especialmente porque uno de los competidores periódicamente es un bot del juego.
En lugar de acceder directamente a los controles, que no estaban disponibles para registro, el equipo utilizó técnicas de visión por computadora para leer indicadores visuales en pantalla como el acelerador, freno y volante, reconstruyendo con esto los comandos de cada jugador con alta precisión solo a partir del video. Para ampliar el dataset y facilitar la generación autónoma de partidas, se aprovecharon los modos B-Spec de Gran Turismo, donde un jugador puede dar instrucciones básicas a un conductor controlado por IA. Scripting automatizado permitió realizar carreras con entradas aleatorias que luego fueron grabadas desde ambas perspectivas, asegurando una base de datos robusta para entrenar al modelo sin necesidad de horas manuales de juego. El impacto de Multiverse trasciende la industria del entretenimiento digital. Al crear un modelo de mundo compartido que procesa y predice interacciones complejas de múltiples actores en tiempo real, abre la puerta a nuevas aplicaciones en la robótica colaborativa, simulaciones de entrenamiento, realidad virtual social y cualquier campo donde la comprensión de contextos compartidos sea vital.
Desde el punto de vista técnico, Multiverse demuestra cómo la combinación de técnicas avanzadas de aprendizaje profundo, arquitectura de redes neuronales especializadas y estrategias inteligentes de muestreo temporal pueden superar las limitaciones tradicionales de la IA para crear entornos digitales ricos y consistentes, optimizados para la colaboración. Además, la apertura del código y los datasets en plataformas como GitHub y Hugging Face facilita que la comunidad investigadora y de desarrollo amplíe este trabajo y explore nuevas aplicaciones y mejoras, consolidando a Multiverse como un referente clave en la evolución de la inteligencia artificial aplicada al modelado de mundos multijugador. En resumen, Multiverse representa no solo un avance tecnológico sino un cambio de paradigma en la manera en que las inteligencias artificiales entienden y recrean entornos compartidos. Su desarrollo marca el inicio de una nueva era para los videojuegos y sistemas virtuales, donde las experiencias cooperativas y competidoras serán cada vez más realistas, inmersivas y enriquecidas por la capacidad de la IA para anticipar, modelar y adaptarse a las interacciones humanas en tiempo real.