En la era actual de la inteligencia artificial y el aprendizaje automático, los modelos de lenguaje a gran escala (LLMs) han transformado la manera en que interactuamos con la tecnología, especialmente en el ámbito de la programación y el desarrollo de software. Sin embargo, a pesar de los avances significativos, estos modelos aún enfrentan desafíos importantes cuando se trata de comprender y generar código de manera precisa, especialmente cuando el contexto de ejecución entra en juego. Aquí es donde aparece Themisto, un benchmark innovador basado en notebooks de Jupyter que ofrece una nueva perspectiva para medir la capacidad de los LLMs para aprovechar la información en tiempo de ejecución a la hora de predecir salidas de código y generar código efectivo. Themisto surge en un momento crucial para la computación y el desarrollo de software asistido por inteligencia artificial. Tradicionalmente, la evaluación de los modelos de lenguaje se ha centrado en datos estáticos o en conjuntos de pruebas aislados que no reflejan completamente la complejidad y dinámica del ciclo de vida del desarrollo de software real.
En contraste, Themisto utiliza trayectorias de desarrollo basadas en notebooks de Jupyter, que encapsulan no solo el código fuente sino también la interacción dinámica, el estado de ejecución y los resultados intermedios que son fundamentales para entender el comportamiento del programa. Este enfoque es especialmente relevante porque muchas de las tareas relacionadas con la programación asistida por IA requieren una interpretación profunda del contexto en que se ejecuta el código. Por ejemplo, cuando un desarrollador escribe una función en Python dentro de un notebook, no solo importa el código en sí mismo, sino también las variables definidas previamente, los resultados de cálculos, y el entorno en el que ese código corre. Themisto pone a prueba la capacidad de los modelos para incorporar y utilizar esta información contextual, algo que suele ser una limitación en los modelos de LLM convencionales. El benchmark fue presentado por Konstantin Grotov y Sergey Titov y aceptado en el taller Deep Learning for Code (DL4C) durante la conferencia ICLR 2025, reconocimiento que destaca su relevancia e innovación en el campo.
El estudio mostró que los modelos actuales aún tienen un rendimiento limitado cuando se les exige predecir resultados de código o generar código nuevo considerando el contexto de ejecución. Esto pone de manifiesto los retos pendientes y abre la puerta a nuevas líneas de investigación enfocadas en cómo incorporar de manera efectiva la información en tiempo real en los motores de generación y predicción de código. En cuanto a la estructura de Themisto, aprovecha las capacidades intrínsecas de los notebooks de Jupyter para capturar una representación fiel del desarrollo de código ordenado y replicable. Los notebooks agrupan fragmentos de código, texto explicativo, resultados y gráficos en una misma plataforma, permitiendo una interacción muy rica con el proceso de programación. Al convertir estas sesiones en trayectorias de desarrollo, Themisto permite evaluar no solo la precisión en la generación del código sino también la capacidad del modelo para entender y anticipar el flujo de trabajo del usuario.
Además, Themisto fomenta una mayor colaboración entre comunidades. Por un lado, impulsa a los investigadores de inteligencia artificial a crear modelos que integren mejor la dinámica del entorno computacional. Por otro lado, conecta con desarrolladores y científicos de datos que utilizan notebooks Jupyter a diario, favoreciendo una retroalimentación directa que puede guiar las mejoras en las herramientas automatizadas. El desafío principal que resalta Themisto es la necesidad de que los modelos de lenguaje no solo interpreten el texto o el código de manera estática, sino que también comprendan el estado del programa en ejecución, variable por variable, línea por línea. Integrar este tipo de datos dinámicos exige nuevas arquitecturas de modelos, técnicas de representación y estrategias de entrenamiento que puedan procesar información secuencial y contextual de manera eficiente.
Esto abre un amplio abanico de oportunidades en cuanto a investigación aplicada y desarrollo tecnológico. Un aspecto complementario que también destaca Themisto es su potencial aplicabilidad en la educación y formación de programadores. Al medir cómo las máquinas entienden el código dentro del contexto completo, es posible desarrollar asistentes inteligentes que pueden ofrecer sugerencias más precisas, detectar errores en tiempo real y facilitar la comprensión del código para principiantes y expertos por igual. La integración de este benchmarking en sistemas educativos podría transformar el aprendizaje y la enseñanza de la programación en entornos digitales modernos. Con la creciente adopción de notebooks como estándar en análisis de datos, ciencia computacional y desarrollo de software exploratorio, Themisto se posiciona como una herramienta fundamental para avanzar en la creación de modelos de lenguaje que sean realmente útiles en escenarios reales de desarrollo.