En el ámbito comercial actual, comprender y predecir el éxito de las interacciones de ventas se ha convertido en una tarea crucial para empresas que desean optimizar sus estrategias y maximizar sus ingresos. A pesar de la proliferación de herramientas basadas en modelos de lenguaje grandes (LLM) como ChatGPT, Claude o Gemini, analizar ventas sigue siendo un desafío complejo. Esto se debe a la naturaleza dinámica y variable de las conversaciones de ventas, donde los matices comunicativos y contextuales desempeñan un papel determinante que a menudo escapa a las capacidades de análisis tradicionales. Sin embargo, una nueva frontera se está abriendo gracias al desarrollo de un innovador modelo de aprendizaje por refuerzo (RL) de código abierto, diseñado específicamente para predecir la probabilidad de conversión de ventas directamente desde las conversaciones. Este avance tecnológico promete cambiar no solo cómo se analizan estas interacciones, sino también cómo se pueden guiar para mejorar los resultados comerciales.
El proyecto, iniciado hace varios meses, se ha centrado en construir un sistema inspirado en juegos como el ajedrez, donde las decisiones en cada jugada afectan el resultado final. En esta analogía, cada turno representa una intervención o mensaje dentro de una conversación de ventas. El objetivo es predecir, con un alto grado de precisión, la probabilidad de que una conversación determinada culmine en una venta exitosa. Para lograr esto, el modelo se entrena utilizando más de 100,000 conversaciones reales de ventas, empleando técnicas avanzadas que incluyen embeddings proporcionados por Azure OpenAI, específicamente el modelo text-embedding-3-large, que permite captar una amplia variedad de patrones y matices en el diálogo.Los embeddings son representaciones vectoriales que traducen el texto en formatos numéricos complejos que las máquinas pueden entender y procesar.
En este caso, cada turno o mensaje dentro de una conversación se convierte en un vector de 3072 dimensiones que encapsula la semántica y las sutilezas del intercambio. Además, el modelo incorpora información complementaria sobre las empresas o productos involucrados, el estilo y flujo de la conversación, canales utilizados, e índices de compromiso y efectividad de ventas que oscilan entre 0 y 1. Esta estructura multidimensional enriquece el análisis y permite que el modelo no solo entienda el lenguaje en sí, sino también el contexto comercial y emocional de cada interacción.El elemento crucial que diferencia este modelo de otros enfoques basados en inteligencia artificial es su entrenamiento a través de aprendizaje por refuerzo utilizando el algoritmo Proximal Policy Optimization (PPO). A diferencia del aprendizaje supervisado tradicional que se limita a hacer predicciones a partir de datos ya etiquetados, el aprendizaje por refuerzo entrena al sistema para explorar diferentes caminos en el diálogo, aprendiendo de sus propias decisiones hacia la maximización de una recompensa.
En este caso, la recompensa es la conversión exitosa (1) o fallida (0) al final de cada conversación. El sistema experimenta y evalúa numerosas rutas posibles en las conversaciones, desarrollando una política que maximiza la probabilidad de éxito analizando no solo el mensaje actual sino también el contexto de los diálogos previos.Para manejar la gran cantidad de información generada por los embeddings de alta dimensionalidad, se implementó una capa lineal que reduce la dimensionalidad antes de alimentar estos datos al agente de aprendizaje por refuerzo. Así se optimiza el manejo computacional sin perder las características esenciales que definen el curso y resultado de cada conversación. El resultado no solo es un modelo capaz de predecir con precisión la probabilidad de conversión, sino también una herramienta que podría ser utilizada en tiempo real para asesorar o guiar a quienes participan en la conversación comercial, ayudándoles a tomar mejores decisiones y tácticas según la evolución del intercambio.
Una parte valiosa de este desarrollo es que tanto el conjunto de datos, el modelo, como los scripts de entrenamiento y ejecución han sido liberados como código abierto. Esto proporciona una oportunidad excepcional para que investigadores, desarrolladores y empresas puedan acceder, probar, adaptar y mejorar la tecnología sin barreras. Además, se ha documentado el trabajo en un artículo científico disponible en Arxiv, que ofrece un análisis profundo de la metodología, resultados y potencialidades del enfoque. Para quienes deseen experimentar de inmediato, el modelo recomienda utilizar Python 3.10 para la inferencia, y también se contempla la incorporación futura de modelos de embedding de código abierto para diversificar y mejorar la extracción de características.
Más allá de la tecnología en sí, se ha creado una plataforma llamada Lexeek que se basa en este sistema para construir agentes conversacionales inteligentes que interactúan con usuarios en contextos comerciales. Esta plataforma y el agente están disponibles gratuitamente, brindando acceso práctico a las capacidades del modelo para guiar conversaciones en tiempo real con un enfoque en maximizar la conversión. Ejemplos de su aplicación incluyen la generación automática de mensajes, evaluación continua del progreso en la venta y recomendaciones adaptativas que pueden transformar radicalmente la forma en que las empresas llevan a cabo su labor de prospección y cierre.Este avance provee una respuesta innovadora a un problema histórico en el sector de ventas: la dificultad de medir y comprender con precisión qué elementos dentro de una conversación influyen realmente en el cierre exitoso. La combinación de modelos de lenguaje avanzados, embeddings enriquecidos y aprendizaje por refuerzo crea un enfoque integral que no solo predice, sino que potencialmente puede optimizar las estrategias comerciales.