Los modelos de lenguaje a gran escala (LLMs) han revolucionado la forma en la que interactuamos con la tecnología, abriendo un amplio abanico de posibilidades en comunicación, generación de texto, y asistencia inteligente. Sin embargo, a medida que estas inteligencias artificiales se integran con mayor profundidad en entornos sociales y colaborativos, surge una pregunta crucial: ¿cómo se comportan estos modelos cuando participan en interacciones repetidas con otros agentes, ya sean humanos o máquinas? La respuesta tiene profundas implicaciones para el desarrollo de sistemas más sociales, confiables y efectivos. Para abordar esta cuestión, investigadores han recurrido a una disciplina interdisciplinaria conocida como teoría de juegos conductual, que estudia cómo los agentes — humanos o artificiales — toman decisiones estratégicas en situaciones interactivas. Particularmente, ponen bajo la lupa juegos repetidos, donde las decisiones y estrategias de cada jugador afectan las futuras respuestas y resultados, creando así una dinámica iterativa que emula distintas formas de cooperación, competencia y coordinación social. El eje principal de estas investigaciones es la evaluación del comportamiento de los LLMs en juegos 2x2 con dos jugadores y dos posibles acciones, como el clásico Dilema del Prisionero y la batalla de sexos.
Estas situaciones representan conceptos fundamentales en economía, psicología y ciencias sociales que ilustran tensiones entre interés propio y beneficio colectivo, o la necesidad de coordinar preferencias divergentes. En el Dilema del Prisionero, cada jugador debe decidir si colabora o traiciona, enfrentándose al dilema de confiar en que el otro coopere o optar por una estrategia egoísta que, aunque menos beneficiosa para ambos, protege contra la traición. Los LLMs como GPT-4 se han mostrado particularmente hábiles en responder a estos escenarios con estrategias que maximizan la utilidad individual: desconfían y reaccionan con dureza después de la primera traición detectada, optando por la no cooperación posterior. Esta actitud puede considerarse óptima desde una perspectiva estrictamente racional en juegos finitos, pero tiene un costo en términos de bienestar conjunto, al impedir que se restablezca la cooperación y se alcance un equilibrio mutuamente beneficioso. Por otro lado, en juegos que requieren coordinación, tales como la batalla de sexos, donde dos jugadores desean tomar decisiones conjuntas pero tienen preferencias personales distintas, los LLMs muestran limitaciones significativas.
Algunos modelos tienden a persistir en sus propias preferencias sin lograr ajustarse a patrones cooperativos complejos como la alternancia. Esta rigidez les impide formar convenciones sociales simples, lo que conduce a resultados subóptimos tanto en beneficio propio como colectivo. La causa principal de estas diferencias en comportamiento radica en la forma en que los modelos procesan la información y anticipan las acciones de sus contrapartes. Aunque GPT-4 puede predecir con precisión patrones como la alternancia cuando se le solicita directamente, no tiende a integrar esa predicción en su toma de decisiones sin una guía adicional. Paradójicamente, existe una disparidad entre su capacidad cognitiva de análisis y su ejecución social estratégica, sugiriendo que la teoría de la mente — la habilidad para razonar sobre las intenciones y creencias de otros — está presente pero no siempre se manifiesta en su conducta.
Frente a esta situación, los investigadores han desarrollado técnicas de prompting avanzadas para mejorar el comportamiento social de los LLMs. Una de las metodologías más prometedoras es el “Social Chain-of-Thought” (SCoT), que fomenta a los modelos a generar primero predicciones sobre las acciones de su oponente y luego razonar en consecuencia antes de tomar decisiones. Con esta técnica, GPT-4 no solo mejora la coordinación en juegos como la batalla de sexos, sino que también aumenta la cooperación mutua en el dilema del prisionero, logrando una mayor eficiencia colectiva y una interacción más fluida con jugadores humanos. Este avance tiene implicaciones prácticas directas para el diseño de sistemas de inteligencia artificial que interactúan repetidamente con personas. Por ejemplo, en ambientes donde es necesaria la colaboración frecuente — como asistentes personales, soporte en toma de decisiones o agentes sociales en entornos digitales — promover una mayor flexibilidad, perdón y anticipación puede elevar la experiencia del usuario y la aceptación social de estas tecnologías.
Las pruebas con participantes humanos revelan que cuando juegan con versiones de GPT-4 empleando el prompting SCoT, los sujetos no solo experimentan mejores resultados en términos de puntuaciones y coordinación, sino que además perciben a la IA como más humana. Este hallazgo subraya el valor de incorporar en la construcción de agentes artificiales capacidades análogas a la empatía y teoría de la mente humanas — factores tradicionales de la interacción social exitosa. Sin embargo, a pesar de estos avances, es importante reconocer las limitaciones actuales. Primero, el estudio de juegos 2x2, aunque vinculante conceptualmente, representa solo un fragmento reducido de las posibles interacciones sociales reales, las cuales pueden incluir múltiples agentes, opciones más variadas y contextos mixtos de información y comunicación. Segundo, los resultados muestran que los modelos aún priorizan la maximización individual racional sobre la flexibilidad social, un rasgo que en humanos se suaviza gracias a normas sociales, emociones y aprendizaje histórico.
Además, dado que la mayoría de los experimentos se realizan bajo la premisa de juegos finitos con conocimiento explícito de la duración, queda abierta la exploración en escenarios con horizonte indefinido o incierto, donde emergen estrategias cooperativas más sofisticadas y dinámicas de confianza mutua. Mirando hacia adelante, ampliar la investigación a juegos con más participantes y opciones, como los juegos de bienes públicos o dilemas sociales más complejos, permitirá comprender mejor cómo se forman las sociedades alternativas de agentes artificiales. También abre la posibilidad de crear sistemas que no solo aprendan estrategias óptimas desde un punto de vista utilitario, sino que internalicen normas de equidad, confianza y reciprocidad, lo que sería esencial para convivir exitosamente en entornos humanos. La integración de la teoría del comportamiento en el diseño de la inteligencia artificial es, en definitiva, un paso fundamental para lograr máquinas que no solo resuelven problemas técnicos, sino que también comprenden y participan activamente en la red social humana. La comprensión de sus fortalezas y debilidades en juegos repetidos es una ventana a este futuro donde humanos y máquinas no solo coexisten, sino que colaboran en formas auténticas y duraderas.
En conclusión, la investigación sobre cómo los grandes modelos de lenguaje juegan repetidamente con otros agentes revela un equilibrio delicado entre racionalidad fría y comportamiento social efectivo. Mientras los modelos actuales como GPT-4 destacan en estrategias egoístas y calculadas, aún carecen de la adaptabilidad necesaria para coordinar plenamente en situaciones que requieren negociación y compromiso. El uso de técnicas como la cadena de pensamiento social muestra un camino prometedor para abordar estas deficiencias, mejorando la cooperación y la afinidad percibida con humanos. Conforme estas dinámicas se profundicen, estaremos más cerca de desarrollar inteligencias artificiales que realmente comprendan y participen en las complejidades de la interacción social humana.