• Las redes neuronales a veces copian imágenes originales, planteando riesgos de privacidad al filtrar información confidencial.
  • En 2023, artistas demandaron a servicios de IA por entrenar redes con imágenes en línea sin respetar derechos de autor.
  • El estudio sugiere eliminar duplicados y pruebas con imágenes especiales para fortalecer la privacidad de los datos de entrenamiento ante amenazas de IA.
  • ¿Ya conoces nuestra cuenta de Threads? Síguenos.

Investigadores de universidades en Estados Unidos y Suiza, en colaboración con Google y DeepMind, han publicado un artículo relevado por Kaspersky que demuestra cómo los datos pueden filtrarse de sistemas de generación de imágenes que utilizan algoritmos de aprendizaje automático como DALL-E, Imagen o Stable Diffusion. 

Cómo funcionan las «redes neuronales»

Estos sistemas se entrenan con una gran cantidad de imágenes (decenas o cientos de miles) con descripciones predefinidas. La idea detrás de estas redes neuronales es que, al consumir una gran cantidad de datos de entrenamiento, pueden crear imágenes nuevas y únicas. 

Sin embargo, la principal conclusión del nuevo estudio es que estas imágenes no siempre son tan únicas. En algunos casos, es posible forzar a la red neuronal a reproducir casi exactamente una imagen original utilizada previamente para el entrenamiento. Esto significa que las redes neuronales pueden revelar inadvertidamente información privada.

Para todas las redes neuronales, el punto de partida es un conjunto de datos de entrenamiento: las redes neuronales no pueden crear nuevas entidades de la nada. Para crear la imagen de un gato, el algoritmo debe estudiar miles de fotografías o dibujos reales de ese animal.

Aquí es donde entra en juego la privacidad. Algunos conjuntos de datos contienen imágenes con copywrite o incluso información confidencial, como las fotografías utilizadas para diagnosticar enfermedades basándose en imágenes médicas.

La clave está en la extracción

Los datos originales se pueden extraer de tres maneras diferentes: mediante consultas específicas que obligan a la red neuronal a producir una imagen específica en lugar de algo único, mediante la reconstrucción de una imagen original, incluso si solo se dispone de una parte de ella, o simplemente estableciendo si una imagen específica está presente o no en los datos de entrenamiento.

Los investigadores han demostrado que las redes neuronales a veces son «perezosas» y en lugar de producir una nueva imagen, simplemente copian una imagen del conjunto de entrenamiento si esta aparece varias veces en los datos. 

En enero de 2023, tres artistas demandaron a los creadores de servicios de generación de imágenes que utilizaban algoritmos de aprendizaje automático, alegando que estos desarrolladores habían entrenado las redes neuronales con imágenes recopiladas en línea sin respetar los derechos de autor. 

Prevenir: cómo podría fortalecerse la privacidad de datos

El estudio sugiere algunas recomendaciones para fortalecer la privacidad de los datos de entrenamiento original, como eliminar duplicados, volver a procesar imágenes de entrenamiento para hacer que el filtrado de datos sea menos probable y probar los algoritmos con imágenes de entrenamiento especiales para asegurarse de que no reproduzcan con precisión imágenes originales.

A medida que las redes neuronales evolucionan, los ataques dirigidos a ellas también evolucionan, lo que plantea desafíos adicionales en términos de ciberseguridad y privacidad de datos. Los riesgos actuales pueden ser teóricos, pero es esencial abordarlos para proteger la privacidad en un mundo cada vez más impulsado por la inteligencia artificial.

AHORA LEE: Bard, el chatbot de IA de Google, ya está disponible en español

TAMBIÉN LEE: Qué es la inteligencia artificial general y por qué estamos más cerca de conseguirla

Descubre más historias en Business Insider México

Síguenos en FacebookInstagramLinkedInTwitterTikTok y YouTube

AHORA ESCUCHA:

AHORA VE: