La inteligencia artificial, especialmente en el campo de los grandes modelos de lenguaje (LLM), ha avanzado vertiginosamente en los últimos años. Sin embargo, uno de los mayores retos que enfrentan investigadores y usuarios es la inconsistencia en los resultados que estos modelos generan ante pequeñas variaciones en los prompts, es decir, las instrucciones o preguntas que se les proporcionan. A pesar de que la información contenida en los prompts sea la misma, un cambio ligero en su formato puede dar lugar a respuestas significativamente diferentes, lo que afecta la confiabilidad de las evaluaciones y comparaciones entre modelos. En la actualidad, la evaluación de modelos como los LLM se basa en benchmarks o pruebas estándar, donde el modelo debe responder a diversas preguntas o realizar tareas específicas. Sin embargo, un fenómeno cada vez más reconocido es la sensibilidad extrema de los modelos al formato del prompt.
Pequeñas modificaciones, como agregar o quitar etiquetas, variar la estructura de las respuestas o cambiar la presentación de las opciones, pueden hacer que la eficacia medida fluctúe considerablemente. Esto genera un problema profundo: si el mismo modelo mejora sus resultados solo por un cambio en la forma de preguntar, ¿cómo podemos estar seguros de que la comparación entre modelos refleja realmente sus capacidades y no solo diferencias en el formato de los datos de entrada? Este problema no es trivial, tiene implicaciones prácticas y filosóficas. Para usuarios y desarrolladores, la falta de consistencia representa un desafío para implementar soluciones confiables y predecibles. Para la comunidad científica, limita la capacidad de comparar avances y establecer ranking claros y justos. En muchos casos, las variaciones en los resultados son lo suficientemente amplias para que la posición de un modelo en un leaderboard cambie según el prompt usado, lo que siembra dudas sobre la validez de los benchmarks actuales.
Una colaboración relevante en la comunidad fue la realizada por el equipo de Leaderboards y Evals de Hugging Face junto a la empresa Dottxt. Realizaron una serie de experimentos que revelaron cómo las modificaciones aparentemente simples en el formato de los prompts podían alterar el rendimiento del modelo hasta en 10 puntos porcentuales. En un caso extremo, un modelo pasó de un 51.2% de precisión a un desastroso 22.9% solo por cambios en cómo se presentaban las preguntas y respuestas.
Esto evidencia que el problema es sistémico y no aislado a modelos específicos. Para mostrar un ejemplo típico, consideremos una pregunta del dataset MMLU, enfocada en conocimiento general, con opciones de respuesta múltiples. La pregunta puede ser formulada de diversas maneras: una versión puede incluir solo el texto de la pregunta; otra puede añadir explícitamente un encabezado que indique que es una pregunta y sección apartada para las opciones; otra más puede usar letras para marcar las opciones, que a su vez pueden estar entre paréntesis o sin ellos. Aunque la información contenida es la misma, el modelo responde diferente, afectando la precisión y el ranking entre modelos. Más allá de la forma, el orden y número de ejemplos en los prompts, conocidos como «n-shot» (cantidad de ejemplos previos) y el «orden de los shots» (la secuencia en que se presentan), también influyen en la salida del modelo.
Experimentaciones con datasets como GSM8K (problemas de matemáticas a nivel de escuela primaria) y GPQA (preguntas multi-opción de nivel avanzado) mostraron que no solo la estructura afecta los resultados, sino que diferentes combinaciones y permutaciones de los ejemplos pueden causar una variabilidad notable en las evaluaciones. Frente a estos retos, un enfoque emergente se basa en centrar la atención no en la entrada —el prompt— sino en la salida. Es decir, en estructurar la generación para que las respuestas del modelo mantengan un formato riguroso y específico, lo que se conoce como generación estructurada. En lugar de permitir que el modelo produzca texto libre que puede variar ampliamente, se define una estructura clara mediante expresiones regulares o gramáticas libres de contexto para que las respuestas se ajusten a un patrón preestablecido. Esta técnica viene ganando terreno porque ofrece múltiples beneficios.
Inicialmente, se desarrolló para facilitar la interacción programática con los modelos, ya que una salida estandarizada en JSON o formatos similares es mucho más fácil de procesar automáticamente. Sin embargo, un descubrimiento sorprendente fue que la generación estructurada también mejora la consistencia y la precisión en las evaluaciones. Al limitar la forma en que los modelos pueden responder, se reduce la variabilidad causada por pequeñas diferencias en el prompt y en la interpretación del modelo. Un ejemplo representativo de esta mejora se observó en el análisis de modelos como Mistral-7Bv0.1 y Zephyr-7B-beta utilizando la plataforma Outlines de Dottxt, diseñada para controlar explícitamente la estructura del output.
En experimentos con diferentes cantidades y órdenes de ejemplos (n-shot y orden de shot), las generaciones estructuradas no solo mantuvieron o mejoraron las tasas de precisión, sino que lograron una significativa reducción en la varianza de los resultados. Esto quiere decir que no solo son mejores los resultados esperados, sino que son más estables, un aspecto clave para evaluaciones válidas y confiables. Además, la generación estructurada contribuyó a estabilizar el ranking entre modelos. Mientras que sin estructura los modelos a menudo intercambiaban posiciones según variaciones mínimas en el prompt, con la generación estructurada el ranking se mantuvo consistente, eliminando la arbitrariedad y permitiendo comparaciones más justas. El proceso para implementar generación estructurada puede incluir definir reglas que limiten la cantidad de caracteres que el modelo puede usar para el razonamiento antes de entregar la respuesta, regular el formato en que la respuesta aparece (por ejemplo, siempre iniciar con «La respuesta es» seguido de un número válido), y restringir que ciertos caracteres aparezcan o no.
Estos controles actúan también como una suerte de «control del pensamiento» dentro de la generación misma, guiando al modelo y limitando formatos ambiguos o erráticos. No obstante, esta técnica está en sus primeras etapas. Aunque los resultados preliminares son alentadores, aún se requiere examinar cómo funciona con distintos tipos de tareas, modelos e idiomas. Asimismo, es necesario balancear la rigidez de las estructuras con la flexibilidad para que el modelo pueda manejar la complejidad de ciertos problemas sin verse demasiado constreñido. En cuanto al impacto práctico, la mejora en la consistencia de las respuestas tiene implicaciones directas para desarrolladores, académicos y usuarios finales.
Para los investigadores, representa un avance para la estandarización en la evaluación y comparación de modelos, facilitando que los reportes y resultados sean más transparentes y reproducibles. Para las empresas y productos basados en inteligencia artificial, significa ofrecer soluciones más predecibles y robustas, que no dependan de ajustes finos y arbitrarios en los prompts. Por último, esta investigación abre nuevas vías en la comprensión de cómo los LLM procesan y generan texto. Aporta evidencia de que no solo el contenido, sino la forma y estructura de las instrucciones y respuestas son clave para el rendimiento. Esto invita a un paradigma donde el diseño de prompts y outputs se convierta en un arte y una ciencia basada en principios formales, con generación estructurada como un pilar fundamental.
En conclusión, mejorar la consistencia de los prompts mediante generaciones estructuradas es una estrategia prometedora para superar una de las grandes limitaciones actuales en la evaluación de modelos de lenguaje. Al reducir la sensibilidad a pequeñas variaciones en el formato y lograr resultados más estables y confiables, esta técnica tiene el potencial de transformar las prácticas de benchmarking y el desarrollo de inteligencia artificial avanzada. Seguiremos expectantes a nuevos avances y aplicaciones que consoliden esta aproximación como estándar en la comunidad.