En el universo dinámico y creciente de las criptomonedas, uno de los fenómenos que más atención genera por sus implicaciones tanto económicas como legales es el pump and dump. Esta práctica consiste en la manipulación coordinada del precio de una moneda digital para inflarlo artificialmente mediante compras masivas, para luego vender a un precio elevado, dejando a otros inversores en pérdida. Entender este fenómeno no solo es crucial para inversores, sino también para desarrolladores y reguladores que buscan mecanismos para detectarlo y mitigar sus efectos. El dataset de pump and dump que analizamos es una herramienta valiosa para aquellos interesados en el estudio y la detección temprana de estas manipulaciones, principalmente en el mercado de criptomonedas. Esta base de datos es una versión extendida asociada con el trabajo académico "Pump and Dumps in the Bitcoin Era: Real Time Detection of Cryptocurrency Market Manipulations" y contiene información detallada extraída de grupos de Telegram que organizan estas maniobras fraudulentas, así como los movimientos comerciales derivados en la plataforma Binance.
La estructura del dataset es robusta y está compuesta por varias carpetas y archivos que describen eventos y características específicas de cada pump and dump. El archivo central, denominado pump_telegram.csv, contiene registros detallados de cada evento de manipulación, incluyendo el símbolo del activo (SYM), el grupo organizador, la fecha y hora exacta en formato UTC y el exchange donde se llevó a cabo la operación, siendo Binance el mercado objetivo en este caso. Es importante destacar que todas las operaciones registradas son en pares de trading SYM/BTC, lo que permite un análisis estandarizado y detallado del comportamiento del mercado. Además, el dataset cuenta con un archivo llamado groups.
csv que aporta contexto sobre los grupos de Telegram implicados, proporcionando su código interno, nombre, último chequeo realizado y enlaces directos a sus respectivos canales. Esta relación íntima entre los grupos y las señales de manipulación que propagan es crucial para comprender la dinámica social y técnica que facilita el pump and dump. Una característica esencial que hace único y valioso este dataset es la inclusión de scripts programados en Python, que automatizan la descarga de las transacciones desde Binance. El script downloader.py permite obtener cada transacción realizada en el período cercano a los eventos de pump and dump, incluyendo información temporal, tipo de operación (compra o venta), precio, cantidad y volumen expresado en BTC.
Estos datos son la materia prima para analizar patrones sospechosos y construir modelos predictivos. La explotación del dataset entra en una etapa avanzada con el script features.py, encargado de computar una serie de características técnicas que describen la actividad y volatilidad del mercado durante los eventos. Las características incluyen la desviación estándar y promedio de órdenes rápidas, cantidad de trades, volúmenes y precios, así como estadísticas mínimas y máximas agrupadas en ventanas de tiempo de 5, 15 y 25 segundos. El análisis en ventanas temporales específicas es fundamental para detectar signos claros de manipulación antes, durante y después del pump.
Además, se proveen etiquetas manuales que ajustan la hora de inicio real del pump and dump, debido a que en algunos casos los organizadores comienzan la actividad antes de compartir la señal oficialmente, generando un desfase que puede oscilar hasta en 120 segundos. Este proceso de etiquetado es vital para entrenar modelos de aprendizaje automático que puedan detectar estos eventos con precisión y anticipación, reduciendo así la exposición de inversores comunes a estas estafas. El archivo classifier.py es la pieza final para quienes quieran aplicar modelos de clasificación basados en machine learning, utilizando las características previamente generadas y el etiquetado que identifica momentos específicos de manipulación. Esto habilita la creación de sistemas que pueden monitorear el mercado en tiempo real y emitir alertas sobre posibles pump and dumps, representando un avance significativo en la defensa del mercado cripto.
El dataset está publicado bajo licencia MIT, lo que facilita su uso, modificación y difusión, siempre que se cite correctamente el trabajo original y su respectiva publicación en la conferencia ICCCN 2020. Este enfoque de código abierto y participación comunitaria invita a usuarios de distintos perfiles a colaborar, desde investigadores hasta desarrolladores en busca de soluciones anti-fraude innovadoras. Contribuir a la actualización y mejora del dataset es sencillo, ya que el repositorio en GitHub acepta pull requests, incentivando que la información se mantenga al día con nuevos eventos y grupos emergentes que implementen estas actividades. La correcta documentación y formato en los archivos garantizan que la comunidad pueda integrar sin dificultades estos datos en investigaciones o aplicaciones prácticas. Comprender y utilizar un recurso como el dataset de pump and dump es esencial para desmitificar y combatir la manipulación en mercados de alta volatilidad como el de las criptomonedas.
Además de ser un aporte académico, sirve como base para la creación de herramientas más sofisticadas que protejan a los inversores y refuercen la confianza en estos activos digitales. En conclusión, el dataset de pump and dump representa un recurso integral para explorar, analizar y detectar eventos de manipulación en el mercado cripto. Su combinación de datos reales, etiquetas manuales y códigos para extracción y análisis crean las condiciones ideales para avanzar en la defensa contra el fraude en las criptomonedas, un desafío creciente en la era digital. Para quienes busquen entender mejor esta problemática o desarrollar nuevas soluciones, esta base de datos se presenta como un punto de partida incomparable.