En los últimos años, la inteligencia artificial ha experimentado una evolución sorprendente, especialmente con la aparición de modelos de lenguaje como GPT-3. Estos modelos, diseñados para predecir la siguiente palabra en una secuencia, han demostrado capacidades impresionantes para emular la escritura humana y realizar tareas de procesamiento de lenguaje natural con una eficacia sin precedentes. Sin embargo, a pesar del entusiasmo global, es importante aclarar que GPT-3 no representa la inteligencia artificial general (AGI) en sí misma, aunque puede ser una pieza fundamental para su desarrollo. A diferencia de sistemas especializados como AlphaGo o Deep Blue, que se destacan excepcionalmente en ámbitos específicos como el ajedrez o el Go, GPT-3 aborda un terreno mucho más amplio: el lenguaje natural. Aunque estos modelos no poseen memoria de interacciones pasadas ni objetivos propios, el lenguaje es una representación rica y compleja del conocimiento y funcionamiento del mundo, lo que abre una vía prometedora para la construcción de modelos que comprendan y simulen una versión amplia de la realidad.
El modelo de lenguaje trabaja prediciendo el siguiente token con gran precisión, y a medida que estos sistemas mejoran en aspectos básicos como la gramática o la coherencia, la única área restante para optimizar es la comprensión lógica y semántica profunda. Alcanzar el límite teórico conocido como entropía de Shannon para el lenguaje natural significa que el modelo estaría logrando el máximo nivel posible de predicción, acercándose a reproducir textos indistinguibles de escritos por seres humanos. El papel crucial que desempeña GPT-3 es demostrar que, al aumentar el tamaño del modelo y la potencia computacional, el nivel de precisión en la predicción mejora continuamente sin necesidad de arquitecturas más complejas o ajustes manuales avanzados. Esto implica que los modelos futuros, con miles de millones o incluso billones de parámetros, podrían desarrollar una comprensión del mundo mucho más afinada, convirtiendo el lenguaje en un modelo interno de realidad verdaderamente potente. ¿Cómo se podría aprovechar este modelo implícito del mundo? La respuesta está en interactuar con el modelo mediante lenguaje natural, planteando escenarios, preguntas o predicciones sobre eventos futuros.
La salida del modelo reflejaría la probabilidad de lo que una persona promedio consideraría la continuación más lógica o probable, funcionando como una suerte de simulador mental colectivo. Esto convierte al modelo en una herramienta capaz de representar el estado del mundo y anticipar sus desarrollos. No obstante, existen desafíos significativos en esta aproximación. GPT-3 y sus pares aún presentan limitaciones para generar modelos sólidos y coherentes del mundo cuando se enfrentan a cadenas de razonamiento complejas o tareas de planificación a largo plazo. La expectativa de que modelos futuros más grandes mejoren estas capacidades es una hipótesis sobre la que sólo se podrá comprobar empíricamente conforme la tecnología avance y se disponga de modelos con un número de parámetros colosal.
Un modelo del mundo, por más detallado que sea, no constituye por sí solo un agente inteligente capaz de actuar con objetivos claros. Para transformar un modelo de lenguaje en un agente autónomo, es necesario definir objetivos concretos, sea maximizar recursos específicos o alcanzar metas determinadas. Este objetivo se puede comunicar al modelo a través del lenguaje, solicitándole sugerencias para lograrlo. La complejidad reside en la capacidad del modelo para considerar todas las posibles consecuencias y ramificaciones de una cadena de acciones posibles, un cometido que puede ser demasiado exigente para los modelos actuales. Sin embargo, la flexibilidad del lenguaje permite describir acciones a alto nivel y descomponerlas en metas o subobjetivos más manejables.
En este sentido, técnicas como la Búsqueda en Árboles de Monte Carlo pueden utilizar el modelo de lenguaje para simular diferentes secuencias de acciones, evaluando cuál podría maximizar la recompensa esperada según el objetivo. Este método implica utilizar el modelo para generar escenarios a partir de un estado dado, explorando posibles movimientos futuros y midiendo el valor esperado en términos de cumplimiento del objetivo fijado. Elegir una estrategia basada en la mejor evaluación de estos caminos convierte al sistema en un agente que no sólo comprende el entorno, sino que planifica y decide de forma racional. Es interesante destacar que el estado del agente y las observaciones del entorno pueden representarse también en texto, permitiendo al modelo procesar, resumir y actualizar su propia visión del mundo de manera eficiente. Este procesamiento continuo y la capacidad de olvidar información irrelevante le facilitan manejar grandes volúmenes de datos y adaptarse a cambios en el entorno.
La cuestión de entrada y salida para un agente de este tipo es esencial. Para recolectar información del entorno, se pueden usar módulos que conviertan cualquier tipo de dato —imágenes, texto, sonidos— en una descripción textual que el modelo pueda procesar. Por ejemplo, tecnologías como modelos de visión que transforman imágenes en texto se pueden integrar para alimentar al sistema con información rica y diversa. Para que el agente actúe en el mundo, el modelo puede traducir sus decisiones en comandos, código o instrucciones precisas en cualquier formato adecuado al entorno, desde órdenes para interactuar con una interfaz hasta movimientos físicos en un robot. La versatilidad de usar lenguaje como puente facilita la integración con sistemas diversos y complejos.