En un mundo cada vez más complejo y conectado, las organizaciones enfrentan el desafío constante de optimizar la gestión del talento, identificar expertos y anticipar las necesidades en habilidades para mantenerse competitivas y eficientes. NASA, la emblemática agencia espacial estadounidense, ha dado un paso significativo al transformar su gestión de recursos humanos a través de la implementación de una tecnología innovadora que combina bases de datos de grafos con grandes modelos de lenguaje (LLMs). El resultado de esta fusión tecnológica es el desarrollo de un People Knowledge Graph, un sistema que conecta personas, proyectos y habilidades para ofrecer información organizacional en tiempo real y permitir decisiones estratégicas basadas en datos. Antes de profundizar en el impacto de esta iniciativa, es importante entender por qué las bases de datos relacionales tradicionales, basadas en filas y columnas, resultan limitadas para organizar y analizar la información humana en una organización tan vasta y compleja como NASA. Estas bases enfrentan grandes retos cuando se trata de reflejar las múltiples y dinámicas relaciones entre empleados, sus habilidades específicas, los proyectos en los que han participado y sus trayectorias profesionales.
La estructura tabular a menudo provoca pérdida de contexto y dificulta responder preguntas complejas que requieren comprender conexiones cruzadas y múltiples saltos relacionales. Es aquí donde la tecnología de grafos muestra su mayor fortaleza, ya que permite modelar la información de manera más orgánica, reflejando auténticamente las redes de relaciones humanas, habilidades, organizaciones y proyectos. NASA eligió Memgraph como su plataforma de base de datos de grafos para gestionar esta red compleja. Memgraph ofrece la capacidad de trabajar en tiempo real, permitiendo consultas sofisticadas que atraviesan múltiples relaciones para descubrir expertos, analizar semejanzas entre proyectos y detectar brechas en habilidades, todo de forma ágil y precisa. La infraestructura tecnológica instalada para esta solución es robusta y segura, funcionando en la nube privada de AWS con estrictas medidas de protección que garantizan la confidencialidad de la información.
Memgraph se ejecuta en contenedores Docker sobre instancias EC2, mientras que un servidor local de LLM, específicamente Ollama, también corre en EC2 para realizar la extracción automática de habilidades y responder consultas vía chatbot. Los datos estructurados y no estructurados se almacenan en buckets S3, y para trasladar eficientemente esta información a la base de grafos se utiliza GQLAlchemy con consultas en Cypher, el lenguaje propio para grafos de Memgraph. La ingesta de datos es un proceso crucial y complejo que involucra la integración de múltiples fuentes, como el almacén de datos de personal interno de NASA, registros específicos de proyectos en inteligencia artificial y aprendizaje automático y la digitalización de habilidades extraídas directamente desde currículos del equipo usando modelos LLM. Este último punto es especialmente relevante, ya que permite clasificar automatizadamente las capacidades profesionales sin depender de conjuntos de datos manualmente etiquetados, aumentando la eficiencia y precisión. Un aspecto clave que diferencia este proyecto es el modelado del grafo.
NASA construyó un grafo de propiedades etiquetadas donde cada nodo representa entidades vitales como empleados, títulos profesionales, series ocupacionales, niveles salariales, organizaciones, centros de trabajo, proyectos con descripciones textuales, nivel y área de educación, universidades y las habilidades extraídas. La capacidad de etiquetar nodos y vincularlos mediante relaciones dinámicas permite una representación múltiple y rica del capital humano, poniendo especial énfasis en la flexibilidad para incorporar nueva información y relaciones a medida que el proyecto evoluciona. Durante una llamada comunitaria transmitida en vivo, el equipo de Analítica de Personas de NASA mostró consultas reales ejecutadas en esta base de datos, ejemplificando cómo se puede localizar rápidamente expertos en áreas específicas, generar reportes descriptivos para la alta dirección y detectar proyectos casi duplicados para optimizar recursos. Además, se presentó un chatbot basado en un pipeline RAG (Graph Retrieval-Augmented Generation) que utiliza LLM para interpretar consultas escritas en lenguaje natural y recuperar información contextualizada directamente desde el grafo. Esta interacción entre inteligencia humana y artificial fortalece el acceso a datos y el soporte en la toma de decisiones.
El funcionamiento interno del chatbot RAG es particularmente innovador. Cuando se recibe una pregunta, el modelo de lenguaje extrae piezas clave de información y ejecuta búsquedas pivotadas en el grafo, obteniendo múltiples nodos relevantes. Se expande luego la relevancia con saltos relacionales desde cada nodo identificado y se generan lo que NASA denomina “context triplets”, que contienen el nodo de inicio, el final y la relación entre ambos. Estos tripletes se envían junto con la consulta original al modelo LLM para crear respuestas contextualmente informadas, mejorando la precisión y utilidad de la interacción. Para que el sistema pueda soportar operaciones tan avanzadas, los embeddings de los datos son almacenados directamente dentro de Memgraph y se indexan mediante similitud coseno.
Este enfoque facilita búsquedas difusas y recomendaciones basadas en proximidad semántica, aunque el equipo continúa explorando mejoras como re-ordenamientos y optimización de los modelos de embedding. Como cualquier proyecto en desarrollo, el People Knowledge Graph de NASA todavía enfrenta retos. Por ejemplo, la calidad y desambiguación de los datos es un área crítica, pues implica consolidar variantes de términos como ‘JS’ y ‘JavaScript’ para evitar duplicidades y confusiones. Se prevé además automatizar en mayor medida el pipeline de datos, incorporar más atributos de los empleados, incluyendo objetivos de aprendizaje y preferencias en proyectos, y mejorar las capacidades de generación de consultas Cypher y la precisión del chatbot utilizando protocolos de contexto para modelos (MCP). Actualmente, el grafo contiene aproximadamente 27 mil nodos y 230 mil relaciones, pero se anticipa un crecimiento considerable hasta superar medio millón de nodos y millones de relaciones.
Esta escala posicionará a NASA para aprovechar un ecosistema de datos aún más rico y apoyar una gestión del talento avanzada, adaptable y predictiva. Desde el punto de vista estratégico, esta iniciativa abre nuevas puertas para organizaciones que buscan extraer valor del caos que suele presentarse cuando se trata de datos humanos dispersos. Al combinar la capacidad de modelado de grafos con la inteligencia contextual y comprensión del lenguaje natural de los LLM, se crea una herramienta poderosa para descubrir conocimientos ocultos, fomentar la colaboración interdepartamental y apoyar la innovación continua. La elección de Memgraph frente a otras soluciones, como Neo4j, también revela una visión pragmática de NASA, que prioriza no solo la funcionalidad sino la escalabilidad económica y la flexibilidad tecnológica para optimizar resultados. En resumen, el proyecto de People Knowledge Graph de NASA es un ejemplo inspirador de cómo las tecnologías de grafos y procesamiento del lenguaje natural pueden unirse para transformar la gestión del capital humano.
Este enfoque abre caminos para la propia NASA y para otras entidades que quieran liderar con bases más sólidas en el talento, la colaboración y la innovación basada en conocimiento. La evolución continua de este sistema promete resultados impensados hace solo unos años, consolidando a NASA como pionera también en analítica avanzada de personas y talento en el siglo XXI.