En la era digital actual, la generación de imágenes de alta calidad juega un papel fundamental en múltiples sectores, desde el entretenimiento hasta la medicina y el diseño gráfico. Los avances en inteligencia artificial han permitido desarrollar herramientas que generan imágenes de manera automática a partir de textos o conceptos, abriendo infinitas posibilidades creativas y comerciales. En este contexto surge Infinity, un modelo innovador que redefine la síntesis de imágenes de alta resolución mediante una metodología denominada modelado autoregresivo bit a bit. El modelo Infinity ha capturado la atención de la comunidad científica y tecnológica por su capacidad para generar imágenes fotorealistas de 1024×1024 píxeles en tan solo 0.8 segundos, un rendimiento que no solo supera a modelos anteriores basados en difusión como SD3-Medium y SDXL, sino que también representa un progreso significativo en la velocidad y calidad de la generación visual.
Lo que hace a Infinity verdaderamente revolucionario es su planteamiento de escalabilidad. Mientras que la mayoría de los modelos autoregresivos tradicionales predicen tokens o índices discretos, Infinity adopta un enfoque bit a bit, lo que implica la predicción de cada bit individualmente a través de un tokenizador y un clasificador con vocabulario infinito. Esta aproximación permite expandir teóricamente el tamaño del vocabulario del tokenizador hasta el infinito, potenciando así la precisión y diversidad en la generación de imágenes sin incurrir en un aumento exorbitante de la memoria o la complejidad computacional. El concepto central de este avance es el modelado autoregresivo visual basado en bits. En términos simples, en lugar de tratar la imagen como una secuencia de tokens discretos, Infinity descompone cada componente visual en bits a nivel granular, lo que permite un control más fino y detallado durante la generación.
El tokenizador deInfinity utiliza un cuantizador residual de múltiples escalas, que es capaz de manejar un vocabulario extremadamente grande, como 2 elevado a la 32 o 64, garantizando que la representación visual conserve una fidelidad excepcional con el contenido original. Un reto importante al entrenar modelos autoregresivos reside en la discrepancia entre el entreno y el testeo, conocido como la discrepancia de teacher-forcing. Durante el entrenamiento, el modelo suele recibir las entradas correctas previas, pero en la inferencia debe generar y corregir sus propias predicciones, lo que puede ocasionar la propagación y amplificación de errores, degradando la calidad final de la imagen. Para mitigar este problema, Infinity incorpora una técnica innovadora llamada Corrección Automática Bit a Bit (Bitwise Self-Correction), que le permite al transformador reconocer y rectificar errores durante la generación, resultando en imágenes más limpias y coherentes. La arquitectura del clasificador también es sorprendentemente eficiente.
Mientras que los clasificadores convencionales para vocabularios grandes requieren trillones de parámetros, Infinity propone un clasificador que predice directamente los bits, reduciendo la cantidad de parámetros necesarios de manera drástica - de billones a cientos de miles - sin sacrificar exactamente el rendimiento. Infinity no solo destaca por su innovación técnica, sino también por su impacto directo en benchmarks reconocidos en la industria. En la evaluación GenEval, un estándar en la valoración de generación de imágenes, Infinity logra una puntuación de 0.73, superando a SD3-Medium que obtuvo 0.62.
En términos de ImageReward, que mide la calidad perceptual y la coherencia con el texto proporcionado, Infinity alcanza un 0.96, evidenciando una mejora sustancial respecto a modelos anteriores. La evidencia del potencial de Infinity se refleja en la aceptación de su estudio como ponencia oral en la conferencia CVPR 2025, uno de los eventos más prestigiosos en visión por computadora e inteligencia artificial. Este reconocimiento es un testimonio del avance tecnológico que representa en el campo de síntesis visual. Más allá del modelo, el ecosistema preparatorio para trabajar con Infinity es robusto y accesible.
El proyecto provee modelos preentrenados en varios tamaños, desde versiones de 125 millones hasta 20 mil millones de parámetros, lo que permite a los investigadores y desarrolladores elegir la configuración que mejor se adapte a sus necesidades. Asimismo, el código está disponible públicamente, incluyendo scripts para entrenamiento, evaluación y generación, facilitando la reproducción y extensión de los experimentos. Para manejar la gran cantidad de datos visuales, Infinity ofrece una estructura eficiente para la preparación y organización de datasets. Los archivos JSON alinean imágenes con descripciones detalladas y ratios de aspecto, posibilitando entrenar modelos con más de 100 millones de ejemplos. Además, se proporciona un dataset de ejemplo pequeño para que los usuarios puedan iniciar sus pruebas.
En cuanto a la velocidad, Infinity no solo ofrece alta calidad, sino que lo hace de forma rápida y efectiva. Su integración con FlexAttention, una tecnología de atención eficiente para Transformers, permite acelerar el proceso de entrenamiento e inferencia. Asimismo, la generación puede realizarse en segundos, lo que representa una mejora significativa para aplicaciones en tiempo real o interactivas, como demos públicas y plataformas creativas. El uso del modelo preentrenado flan-t5-xl para el procesamiento del texto es otro aspecto clave de la cadena de generación, garantizando la correcta comprensión y representación de las indicaciones textuales para la creación de imágenes coherentes y precisas. Infinity también propone un enfoque organizado para el ajuste fino (fine-tuning) de sus modelos, permitiendo adaptar los modelos base a conjuntos de datos específicos o estilos particulares con simples comandos y configuraciones ajustables, fortaleciendo así su versatilidad para diferentes usos.
Gracias a estos atributos, Infinity va más allá de un mero modelo de generación, posicionándose como un marco completo para la síntesis de imágenes de alta resolución que combina rendimiento, calidad, escalabilidad y eficiencia. Para quienes desean explorar y experimentar, el proyecto ofrece demos interactivos y notebooks Jupyter que facilitan la comprensión y utilización de los modelos Infinity-2B y Infinity-8B, donde los usuarios pueden generar sus propias imágenes y profundizar en los aspectos técnicos de la herramienta. En resumen, Infinity representa un hito en el desarrollo de inteligencia artificial aplicada a la síntesis de imágenes. Rompe paradigmas al escalar modelos autoregresivos con vocabularios infinitos bit a bit, abordando los problemas clásicos de esta metodología mediante técnicas innovadoras como la corrección automática y un diseño eficiente de tokenizador y clasificador. Su velocidad y calidad lo convierten en la opción preferida frente a modelos existentes, abriendo un camino prometedor para futuras investigaciones y aplicaciones en generación visual automática.
A medida que la tecnología avanza, modelos como Infinity serán fundamentales para transformar la creatividad digital, automatizar procesos complejos y facilitar nuevas formas de interacción visual, marcando un antes y un después en la inteligencia artificial aplicada a imágenes.