En los últimos años, la arquitectura transformer ha irrumpido con fuerza en diversos campos tecnológicos, desde el procesamiento del lenguaje natural hasta la visión por computadora. Sin embargo, su adopción y adaptación en el ámbito específico del ajedrez computacional han marcado un notable avance que redefine completamente la manera en que las máquinas entienden y juegan este milenario juego. Leela Chess Zero (Lc0), uno de los proyectos de inteligencia artificial más influyentes en ajedrez, ha implementado una serie de innovaciones transformer que han elevado su rendimiento a niveles nunca antes vistos, superando en muchas ocasiones los enfoques tradicionales basados en redes convolucionales. Históricamente, Lc0 utilizó arquitecturas basadas en convoluciones, similares a las empleadas por DeepMind en AlphaZero. Aunque efectivas, estas presentaban limitaciones significativas a la hora de capturar dependencias a largo plazo en el tablero.
Por ejemplo, reconocer la interacción táctica entre piezas situadas en extremos opuestos, como un caballo defendiendo en una esquina y una torre presionando en la opuesta, resultaba complicado debido al confinamiento del campo receptivo de las convoluciones. Cada casilla necesitaba procesar la información de manera adyacente e iterativa, lo que ralentizaba la propagación de señales importantes en la posición global. Estas restricciones llevaron a los desarrolladores de Lc0 a explorar otra vía: la arquitectura transformer, capaz de manejar relaciones de largo alcance con mayor eficiencia. BT4, la versión más avanzada hasta la fecha lanzada por el equipo de Lc0, evidencia un salto cualitativo en el análisis computacional del ajedrez. Con casi 300 puntos Elo por encima de la mejor red convolucional, BT4 no solo supera en fuerza, sino que también lo hace con un número menor de parámetros y menos requerimientos computacionales.
Este hito es resultado de numerosas pruebas y modificaciones cuidadosamente calibradas para optimizar el rendimiento en las complejidades específicas del ajedrez. Una particularidad fundamental del enfoque transformer en ajedrez es la representación de las posiciones como tokens que corresponden a cada casilla del tablero, sumando un total de 64 tokens, uno por cada casilla. Esta representación tokenizada incluye características detalladas, tales como la presencia y el tipo de pieza en la jugada actual y en las últimas siete jugadas, información sobre enroque, captura al paso y el conteo de jugadas según la regla de 50 movidas. Además, se añaden indicadores para identificar repeticiones en la secuencia de jugadas. La presencia de un embedding posicional entrenable garantiza que el modelo también codifique la ubicación de cada token en el contexto del tablero, crucial para entender la dinámica espacial del ajedrez.
La gestión de la información posicional constituye uno de los mayores desafíos en la aplicación de transformers al ajedrez. En otras aplicaciones, técnicas como RoPE o codificaciones posicionales relativas han mejorado el tratamiento de la información vinculada a la distancia entre tokens, relativizándola para que la influencia entre ellos disminuya conforme aumenta su distancia en el espacio de tokens. Para un juego como el ajedrez, sin embargo, la noción de ‘distancia’ no se ajusta a una simple métrica euclidiana sino a relaciones específicas que dependen de las reglas y movimientos propios del juego. Casillas distantes en términos espaciales pueden estar directamente conectadas por movimientos de caballo, torre o alfil, implicando una relación estratégica relevante que debe ser captada por el modelo. Para abordar este desafío, Lc0 introdujo un sesgo entrenable en los logits de atención, que añade una cantidad significativa de parámetros adicionales pero que mejora la manera en que el modelo aprende a valorar las conexiones que importan según la topología del ajedrez.
Más adelante, este concepto evolucionó hacia una innovación llamada “smolgen”, un módulo que adapta dinámicamente la atención en función de la posición actual, modulando el peso entre tokens cercanos o lejanos según si la posición en el tablero es cerrada o abierta. De esta forma, la atención no solo integra la dinámica posicional estática, sino también el contexto actual del juego, enriqueciendo la calidad del análisis. El módulo smolgen funciona comprimiendo la representación de la posición en un vector pequeño del que luego se generan logits adicionales para cada cabeza de atención, que se suman a los logits derivados de la atención por producto punto antes de pasar por la función softmax. Este mecanismo permite que el modelo simule una red un 50% más grande sin incurrir en una reducción significativa de la velocidad de inferencia, lo que optimiza la relación entre rendimiento y eficiencia. Adicionalmente, a diferencia de aplicaciones comunes en visión o procesamiento de lenguaje donde capas feed-forward (FFN) considerables suelen mejorar el desempeño, en las transformers específicas para ajedrez Lc0 confirmó que incrementos en la dimensión de estas capas no conllevaban beneficios apreciables.
El ajedrez cuenta con relativamente pocos tokens (64 casillas) comparados con miles o millones de tokens en lenguaje o imágenes, lo que refleja diferencias fundamentales en la estructura del dominio y cómo se debe diseñar la arquitectura para optimizar su efectividad. El equipo también mejoró el método de embedding. Un análisis de los mapas de atención reveló que la primera capa de atención producía señales poco claras, por lo que implementaron un embedding que procesa de forma lineal y segmentada la representación completa del tablero antes de los embeddings de token estándar. Junto con una capa FFN tras esta etapa, el modelo puede capturar mejor toda la posición desde el inicio, aumentando la capacidad de análisis y fortaleciendo la precisión en la toma de decisiones desde la primera capa. Estas mejoras arquitectónicas han resultado en progresos palpables en competencias oficiales.
Por ejemplo, en el Campeonato TCEC Superfinal en su temporada 23, Leela Chess Zero perdió considerablemente frente a Stockfish. Sin embargo, en las temporadas posteriores 24 y 25, la brecha se ha reducido notablemente, con un número mucho menor de derrotas y un incremento significativo en victorias, reflejo directo del impacto que han tenido las novedades impulsadas por la arquitectura transformer. La visualización de los mapas de atención da además una visión fascinante del funcionamiento interno del modelo. Muchas cabezas de atención detectan patrones vinculados a movimientos específicos de piezas — torres, alfiles, caballos, peones y reyes — adaptándose a la lógica de cómo se desplazan en el tablero. En algunas capas avanzadas, una cabeza parece analizar desde qué piezas contrarias es posible mover a un casillero determinado, un comportamiento adquirido de forma autónoma mediante el entrenamiento, sin intervención humana directa.
Por supuesto, el modelo no es infalible, pues en ocasiones los mapas de atención muestran conclusiones erróneas, como suponer un movimiento inválido de un caballo, lo que revela la complejidad y sutileza inherente al aprendizaje automático en un dominio tan estructurado y rico como el ajedrez. El camino recorrido desde la primera versión transformer de Lc0, llamada BT1, hasta la más avanzada BT4, muestra una evolución constante. Cada paso ha implicado aumentos en el conteo de cabezas de atención, la incorporación de smolgen, mejoras en embedding y el incremento en tamaño del modelo, todo ello intercalado con un análisis riguroso para medir tanto la fuerza de juego en términos de elo como la eficiencia computacional. El resultado es un modelo que mejora el rendimiento y la comprensión simultáneamente, reduciendo la brecha con el mejor software de ajedrez y sentando las bases para futuros desarrollos. Mirando hacia el futuro, Lc0 continúa explorando vías aún no del todo explotadas, como la implementación de codificaciones posicionales relativas que podrían elevar todavía más la capacidad del modelo para entender las relaciones espaciales complejas en el tablero.
Además, los avances en técnicas de cuantización, especialmente la cuantización INT8, prometen mejorar enormemente la velocidad de inferencia sin comprometer la calidad, un avance crítico para el uso práctico de estas redes en dispositivos con recursos limitados. No todas las técnicas exitosas en otros dominios han sido eficaces para la IA de ajedrez. Por ejemplo, MoE (expertos mezclados) y GLU (unidades lineales generalizadas) no parecen ofrecer mejoras significativas en la calidad del juego, posiblemente porque el modelo no depende mucho de la subcapa FFN, sino más bien de la atención enlazada a la configuración única del ajedrez. En conclusión, el progreso en arquitecturas transformer específico para el ajedrez representa un cambio revolucionario en la forma de abordar la inteligencia artificial aplicada a este juego. La combinación de una representación de tokens basada en casillas, junto con innovaciones como smolgen y embeddings mejorados, impulsa un análisis más profundo y preciso, ampliando las capacidades que apenas años atrás se consideraban imposibles para las máquinas.
Con la continua innovación y colaboración de la comunidad, el futuro de la IA en el ajedrez luce prometedor, invitando a aficionados y expertos por igual a presenciar y participar en esta nueva era del juego de reyes gracias a la inteligencia artificial.