La evolución tecnológica ha transformado de manera radical el campo de la robótica y los sistemas inteligentes, especialmente con la integración de agentes de software basados en modelos de lenguaje avanzado (LLM). Estos agentes están demostrando habilidades notables en el uso de herramientas, almacenamiento de memoria y la planificación de tareas multifásicas. Sin embargo, un desafío persistente es su aplicación en el mundo físico, particularmente cuando múltiples agentes, como robots o sistemas equipados con sensores, necesitan colaborar sin problemas para cumplir objetivos compartidos. Un escenario común que ejemplifica esta problemática es cuando un robot, denominado Robot A, detecta que un objeto específico se encuentra en una determinada zona, y posteriormente, otro robot, Robot B, debe acceder a esa información para ejecutar la tarea de recuperación. En esencia, surge la pregunta de cómo estos agentes pueden compartir y actualizar ese contexto de forma eficiente y dinámica para optimizar la planeación y la ejecución.
Las estrategias para lograr esta colaboración han sido múltiples y aún están en evolución. Uno de los métodos más discutidos consiste en emplear capas de memoria estructurada, como grafos de conocimiento, que organizan la información en nodos y relaciones, permitiendo una representación semántica clara del entorno físico y las tareas en curso. Esta memoria compartida facilita que los agentes puedan consultar, actualizar y basarse en un estado común del mundo durante la planificación, lo que hace que la coordinación sea más robusta y menos propensa a errores derivados de información desactualizada o contradictoria. Por otro lado, la integración de técnicas como Retrieval-Augmented Generation (RAG) ofrece un enfoque innovador para manejar grandes cantidades de información no estructurada que puede provenir tanto del entorno físico como de fuentes documentales o sensoriales. RAG funciona combinando bases de datos o almacenes de conocimiento con generadores de texto basados en modelos de lenguaje para recuperar y generar respuestas o planes basados en el contexto disponible.
Aplicado a la interacción entre agentes físicos, RAG puede actuar como un repositorio centralizado o distribuido que recolecta hechos, observaciones y decisiones de cada agente para luego brindar soporte a la toma de decisiones compleja y dinámica. No obstante, también hay quienes proponen soluciones más simples o incluso menos convencionales. Algunas iniciativas experimentales emplean métodos que no requieren estructuras de datos complejas, utilizando quizá formatos propios o reglas embebidas en la memoria operativa de los agentes. Estas aproximaciones pueden beneficiarse de menor overhead computacional y mayor rapidez en determinados entornos, aunque potencialmente a costa de una menor escalabilidad o flexibilidad en escenarios multifacéticos. Actualmente, varios grupos de investigación y desarrolladores en la comunidad tecnológica están explorando las posibilidades de aplicar memorias compartidas basadas en grafos de conocimiento, enriquecidas con capacidades RAG, para lograr una planificación eficiente, detección de dependencias y coordinación entre múltiples agentes físicos.
Al convertir la memoria en un espacio común y semánticamente rico, se facilita la resolución conjunta de problemas, el reparto eficiente de tareas e incluso la supervisión adaptativa. Adicionalmente, se ha comenzado a debatir la utilización de grafos de tareas tipadas como una alternativa a la memoria compartida tradicional. En esta propuesta, la coordinación se entiende a través de la línea temporal y dependencias de las tareas más que un estado global rígido. Esta perspectiva convierte la colaboración en una gestión de flujos de trabajo y relaciones, lo que puede aportar escalabilidad y flexibilidad frente a entornos complejos y cambiantes. Más allá de las técnicas específicas, otro elemento clave en la planificación colaborativa entre agentes físicos es la gestión del estado del mundo y del contexto de la tarea.
Esto implica no solo almacenar datos, sino garantizar que la información sea coherente, accesible y actualizable en tiempo real frente a factores externos impredecibles. La sincronización y la integridad de la memoria compartida, así como la comunicación efectiva entre agentes, son retos técnicos y conceptuales que continúan impulsando la innovación en este ámbito. Entre las herramientas y frameworks que se están explorando o desarrollando, destacan aquellos que combinan sistemas de gestión de bases de datos con motores de inferencia y generación basados en inteligencia artificial. Algunos proyectos apuntan hacia arquitecturas híbridas donde la memoria estructurada convive con componentes de generación contextualizados que amplían la capacidad de planificación más allá de reglas predefinidas. Esto permitiría a los agentes no solo recordar y consultar información, sino también razonar y adaptarse ante escenarios complejos con mayor autonomía.