En los últimos años, la inteligencia artificial ha experimentado un crecimiento exponencial, especialmente en el campo de los modelos de difusión de texto a imagen (Text-to-Image, T2I). Estos modelos permiten generar imágenes de alta calidad a partir de descripciones textuales, transformando radicalmente industrias creativas como el diseño gráfico, la publicidad y el arte digital. Sin embargo, esta innovación tecnológica también conlleva riesgos y preocupación, particularmente en relación con la protección de los derechos de autor sobre los conjuntos de datos utilizados para entrenar y personalizar estos modelos. El proceso de personalización de modelos T2I, donde se finetunea un modelo preentrenado con datos adicionales específicos, se ha convertido en una práctica común para mejorar la adaptación y calidad en contextos particulares. Esta tendencia, aunque ventajosa por sus resultados, presenta la vulnerabilidad de permitir el uso no autorizado de conjuntos de datos protegidos por derechos de autor.
Estos usos pueden ir más allá del consentimiento del propietario original de los datos, lo que genera conflictos legales y éticos en torno a la propiedad intelectual en inteligencia artificial. Para hacer frente a estas preocupaciones, ha surgido una técnica conocida como verificación de propiedad del conjunto de datos (Dataset Ownership Verification, DOV). Esta estrategia consiste en insertar marcas ocultas o 'watermarks' digitales en los datos empleados para el entrenamiento. Dichos watermarks están diseñados para ser discretos y no afectar el rendimiento normal, pero cuando se activan con desencadenantes específicos, revelan la propiedad intelectual del conjunto de datos. Así, mediante el análisis de los comportamientos o salidas del modelo, es posible detectar si ha sido entrenado usando datos protegidos con marcas de propiedad.
Aunque la DOV presenta un avance importante en la defensa contra el uso indebido de datos, investigadores han identificado que la robustez de estas técnicas frente a ataques maliciosos aún es limitada y poco explorada. En particular, surge el concepto de ataques de evasión de copyright (Copyright Evasion Attack, CEA), que se enfocan en socavar o burlar los mecanismos de inserción y detección de watermarks en modelos personalizados. Recientemente, se ha desarrollado la primera propuesta concreta de ataque de evasión de copyright dirigida a estos contextos, denominada CEAT2I. Este ataque se articula en tres etapas fundamentales. La primera es la detección de muestras que contienen watermarks en el conjunto de datos durante el proceso de entrenamiento del modelo personalizado.
Una observación clave detrás de esta etapa es que los modelos de difusión personalizados convergen más rápidamente al procesar dichas muestras marcadas, lo que se evidencia en desviaciones características de las representaciones intermedias generadas durante el entrenamiento. Tras identificar las muestras sospechosas, el siguiente paso consiste en detectar las palabras o tokens exactos en las indicaciones textuales que activan los watermarks. Este proceso se logra mediante la eliminación iterativa de tokens y la observación de cambios en las características intermedias del modelo, permitiendo así aislar el conjunto de palabras que actúan como desencadenantes. Finalmente, el ataque implementa un método de borrado conceptual en forma cerrada que elimina de manera eficiente la influencia de las marcas insertadas, mitigando el impacto de los watermarks sin afectar el rendimiento general del modelo. Así, el modelo personalizado puede continuar funcionando correctamente, pero carece del mecanismo que permitiría revelar el uso no autorizado del conjunto de datos original.
Los resultados experimentales indican que CEAT2I es capaz de evadir eficazmente las técnicas de verificación de propiedad del conjunto de datos existentes, manteniendo la calidad y funcionalidad del modelo personalizado. Este hallazgo pone de manifiesto la vulnerabilidad actual de los métodos de protección de propiedad intelectual en el ámbito de la inteligencia artificial aplicada a modelos de generación de imágenes. Este nuevo escenario genera un llamado de atención para investigadores, desarrolladores y legisladores. Por un lado, la comunidad científica debe seguir innovando en métodos robustos y resistentes a ataques para garantizar la protección de la propiedad intelectual en modelos de aprendizaje automático, especialmente en aquellos que se personalizan mediante finetuning. Por otro lado, los marcos legales y las políticas de uso de datos deben actualizarse y adaptarse al vertiginoso avance de las tecnologías AI, estableciendo estándares claros y mecanismos efectivos de regulación y cumplimiento.
Además, esta problemática resalta la importancia de contar con herramientas de auditoría y transparencia en el uso de modelos IA, que permitan rastrear el origen y las fuentes de información utilizadas en el proceso de entrenamiento y personalización. De esta manera, se pueden potenciar mecanismos éticos y responsables en el desarrollo de sistemas basados en inteligencia artificial. En definitiva, la aparición de ataques como CEAT2I demuestra que la batalla por mantener la propiedad intelectual en la era digital es compleja y dinámica. A medida que las técnicas de inteligencia artificial se vuelven más sofisticadas, también lo hacen las técnicas para evadir controles y proteger derechos. Para asegurar un futuro donde la innovación y la creatividad sean reconocidas y resguardadas adecuadamente, es indispensable que toda la comunidad tecnológica, científica y legal trabaje en conjunto en el diseño de soluciones seguras y escalables.