Entrevistas con Líderes

ART·E: El agente inteligente de búsqueda en correos que supera a o3

Entrevistas con Líderes
ART·E: how we built an email research agent that beats o3

Descubre cómo el equipo de OpenPipe desarrolló ART·E, un agente de investigación por correo electrónico que destaca por su velocidad, precisión y eficiencia de costos, superando al modelo o3 en tareas reales de búsqueda y respuesta en bandejas de entrada.

En la era digital, la gestión eficiente del correo electrónico se ha convertido en una necesidad fundamental para usuarios personales y profesionales. A pesar del avance de la inteligencia artificial, muchas personas aún dedican tiempo valioso buscando entre montones de emails para encontrar respuestas a preguntas específicas. Hoy en día, la mayoría sigue utilizando motores de búsqueda básicos dentro de sus plataformas de correo o tienden a hacer búsquedas manuales que pueden ser ineficientes y poco relacionadas con la pregunta real que tienen en mente. Frente a esta problemática, el equipo de OpenPipe ha presentado una solución innovadora llamada ART·E, un agente de investigación por correo electrónico que no solo responde preguntas usando búsquedas inteligentes, sino que también supera significativamente los resultados del modelo anterior conocido como o3. ART·E combina el poder del aprendizaje por refuerzo (RL) con un diseño optimizado para una tarea realmente útil y realista: responder preguntas formuladas en lenguaje natural mediante la exploración profunda en bandejas de entrada.

La necesidad de contar con un agente capaz de buscar en correos electrónicos surge de situaciones cotidianas, como querer saber cómo confirmar asistencia a un evento, detalles de vuelos familiares o información corporativa relevante, tareas que usualmente requieren múltiples pasos manuales y una considerable inversión de tiempo. La aproximación única que propone ART·E radica en la utilización de técnicas de aprendizaje por refuerzo para que el agente mejore su precisión y eficiencia en la búsqueda y respuesta, tomando decisiones inteligentes sobre cuándo y cómo utilizar diferentes herramientas para escanear el contenido del correo electrónico. Para entrenar este agente, fue fundamental contar con un conjunto de datos que reflejara correos electrónicos reales y preguntas relevantes. Para este fin, se eligieron los correos electrónicos públicos de Enron, compuestos por más de medio millón de mensajes enviados y recibidos por empleados de dicha empresa. De estos, se tomaron varias bandejas personales para conformar conjuntos de datos de entrenamiento y prueba.

Sin embargo, más allá de los correos, resultaba esencial generar preguntas con respuestas asociadas, emulando lo que un usuario podría preguntar sobre dichos correos. Al no existir un conjunto de datos prediseñado con estas características, se optó por crear uno sintético mediante GPT-4. Esta generación artesanal permitió producir miles de pares pregunta-respuesta con un grado de realismo notable, filtrando incluso aquellas consultas poco naturales o poco relevantes. El entorno en el cual ART·E opera está definido claramente para facilitar su aprendizaje y operación. El agente cuenta con herramientas que simulan acciones específicas: una función para buscar correos basados en palabras clave y rangos de fechas, otra para leer el contenido completo de un correo seleccionado y finalmente una función para entregar la respuesta final al usuario junto con las fuentes consultadas para dar confianza y trazabilidad a la respuesta.

Para que la búsqueda sea eficiente, se creó una base de datos SQLite con soporte para búsquedas de texto completo (FTS5), permitiendo que el agente pueda consultar grandes cantidades de correos de forma rápida y efectiva. El agente funciona de manera iterativa: se le da la pregunta, el modelo decide qué acción realizar —como qué buscar o qué correo leer—, responde con los resultados y repite este ciclo hasta que decide que tiene la información necesaria para entregar la respuesta final, o hasta que se alcanza un límite máximo de pasos. La simplicidad del ciclo contrasta con la complejidad implícita de la tarea, pero ha demostrado ser muy efectiva en práctica. La efectividad del agente ART·E fue variada y debidamente comparada con modelos preexistentes. El modelo o3, anteriormente el referente en este tipo de tareas, fue el principal competidor a superar.

Antes de aplicar el aprendizaje por refuerzo, el equipo de desarrollo realizó un exhaustivo benchmark con modelos sin entrenamiento adicional para entender sus limitaciones y las áreas que se podían mejorar. Esto les permitió definir de manera clara cómo medir el rendimiento y qué aspectos del agente necesitaban refuerzo adicional. Uno de los elementos definitivos para el avance de ART·E fue la definición de la función de recompensa. En las técnicas de aprendizaje por refuerzo, esta función guía al modelo para aprender comportamientos deseados y evitar errores comunes. Para ART·E, la recompensa principal se basó en la corrección de la respuesta final, es decir, que coincidiera con la respuesta esperada.

Pero además, se incorporaron incentivos para minimizar la cantidad de pasos que el agente empleaba para responder correctamente, intentando así reducir la latencia y mejorar la experiencia de usuario. Otro aspecto crítico fue la penalización de respuestas incorrectas o generadas erróneamente, conocidas como alucinaciones en el lenguaje natural, que podrían entregar respuestas falsas o no sustentadas. Se dotó al sistema de un castigo considerable para estos casos, asegurando que el modelo prefiriera admitir desconocimiento antes que inventar o asumir información errónea, lo que aumentó la confianza en sus resultados. Durante el proceso de entrenamiento, se consideraron también recompensas parciales, como encontrar al menos el correo correcto en la búsqueda o hacer uso correcto de las herramientas disponibles, aunque en la práctica estos incentivos adicionales no aceleraron el aprendizaje como se esperaba, y en algunos casos llevaron a comportamientos indeseados, como repetir acciones sin sentido. El modelo finalmente fue entrenado usando la librería de código abierto ART, que facilita la implementación de agentes multi-turno con el algoritmo Group Relative Policy Optimization (GRPO).

La metodología consistió en presentar al agente múltiples preguntas y permitirle ejecutar diversas trayectorias de acción para cada una, evaluándolas según la función de recompensa y ajustando los parámetros para mejorar continuamente. El entrenamiento fue calibrado cuidadosamente, ajustando hiperparámetros, monitoreando métricas clave como la precisión en respuestas, cantidad de pasos tomados, y la tasa de alucinaciones. Este seguimiento riguroso permitió identificar rápidamente problemas de optimización y realizar correcciones efectivas. El resultado final fue un agente que no solo responde con mayor precisión que o3, sino que también es cinco veces más rápido y sesenta y cuatro veces más económico en términos de costos computacionales, haciendo que su aplicación práctica sea más rentable y accesible. Como ejemplo de su funcionamiento, ART·E es capaz de buscar entre miles de correos de un usuario, identificar con precisión la información solicitada, ya sea una fecha límite, un número de confirmación de vuelo o instrucciones específicas para un trámite, todo esto sin intervención humana directa durante el proceso.

Trading automático en las bolsas de criptomonedas Compra y vende tu criptomoneda al mejor precio

Siguiente paso
Show HN: BitNote – Using browsers and blockchains to store secrets
el martes 20 de mayo de 2025 BitNote: La Revolución en el Almacenamiento Seguro de Secretos con Navegadores y Blockchain

Descubre cómo BitNote combina la tecnología blockchain y la encriptación avanzada para ofrecer un sistema seguro, descentralizado y accesible para almacenar información sensible sin depender de servidores centrales o suscripciones.

Dr Russell Barkley's 30 essential ideas everybody needs to know about ADHD. (Y [video]
el martes 20 de mayo de 2025 Las 30 ideas esenciales del Dr. Russell Barkley sobre el TDAH que todos deben conocer

Explora las ideas fundamentales del Dr. Russell Barkley sobre el Trastorno por Déficit de Atención e Hiperactividad (TDAH), que aportan una comprensión profunda sobre esta condición neurológica, sus implicaciones y estrategias para su manejo efectivo.

Crémieux, J'accuse
el martes 20 de mayo de 2025 Crémieux, J'accuse: Un Análisis Profundo sobre la Controversia del Plagio en la Era Digital

Un análisis detallado sobre la acusación de plagio contra Crémieux, explorando las implicaciones éticas, el contexto digital y la importancia de los valores comunitarios en la creación de contenido original.

The Age of the Double Sell-Out
el martes 20 de mayo de 2025 La Era de la Doble Venta: El Nuevo Paradigma de la Cultura Juvenil y el Comercio

Explora cómo la cultura juvenil ha transformado su relación con el comercio, desde la ética anti-'sell-out' de los años 90 hasta el fenómeno contemporáneo de la 'doble venta', donde la fama se traduce en oportunidades comerciales masivas, y analiza las implicaciones culturales y sociales de este cambio.

OIN marks 20 years of defending Linux and open source from patent trolls
el martes 20 de mayo de 2025 OIN: Dos décadas protegiendo Linux y el software libre frente a los ataques de patentes

El Open Invention Network (OIN) celebra 20 años de compromiso protegiendo Linux y el mundo del software libre de las amenazas de los trolls de patentes, fortaleciendo un ecosistema tecnológico abierto, innovador y colaborativo.

Beyond Performance: Measuring the Environmental Impact of Analytical Databases
el martes 20 de mayo de 2025 Más Allá del Rendimiento: Midiendo el Impacto Ambiental de las Bases de Datos Analíticas

Explora cómo el crecimiento exponencial de datos influye en el impacto ambiental de las bases de datos analíticas, y descubre una metodología innovadora para evaluar su huella ecológica, considerando tanto la operación como la fabricación de hardware, así como la importancia de decisiones arquitectónicas y de ubicación para optimizar la sostenibilidad.

Querying an Object's Access Tier
el martes 20 de mayo de 2025 Cómo Consultar el Nivel de Acceso de un Objeto en Amazon S3 Intelligent-Tiering para Optimizar el Almacenamiento en la Nube

Descubre cómo consultar el nivel de acceso de objetos almacenados en Amazon S3 Intelligent-Tiering, optimizando costos y mejorando la gestión del almacenamiento en la nube mediante el uso de S3 Inventory y Amazon Athena.