Modelos de IA que crean arte o textos se entrenan con contenido dañino

El auge de los modelos de inteligencia artificial (IA) que generan texto e imágenes abre el debate sobre cómo se recopila el material con el que se entrenan y mejoran.
Una IA, Stable Diffusion, cuenta con una base de datos de millones de imágenes, muchas recuperadas de la red sin permiso.
A su vez, se ha descubierto que algunos modelos de IA pueden entrenarse con imágenes de abuso infantil o propaganda terrorista.
¿Ya conoces nuestra cuenta de Instagram? Síguenos.

El auge de los modelos de inteligencia artificial creativas entraña una serie de riesgos que, de momento, están pasando desapercibidos. Uno de ellos es la posibilidad —remota pero no improbable— de que en un futuro este tipo de tecnología afecte a sectores profesionales golpeados como el de los actores de doblaje o ilustradores.

También existen sistemas capaces de generar textos coherentes, a veces espeluznantes. GPT-3, la herramienta desarrollada por OpenAI, publicó un artículo en Business Insider España en el que dudaba incluso del futuro de la humanidad. Por supuesto, esa inteligencia artificial no es una conciencia dormida profetizando el fin de la especie; es una simple demostración de generación de textos.

Este verano, modelos capaces de generar textos con solo una serie de breves instrucciones de texto colmaron las noticias; sobre todo después de que DALL-E 2 —una de las más avanzadas de su clase— abriese una beta por invitación hace unas semanas. Otras como Craiyon y Stable Diffusion, también se han puesto de moda.

En apariencia inocentes, esta tecnología entraña más riesgos de los que uno imaginaría. Por ejemplo, una inteligencia artificial que genera imágenes podría crear rostros falsos, abriendo un sinfín de posibilidades para las estafas en línea.

Pero los desafíos que abre van mucho más allá.

Enlaces a pornografía infantil y a propaganda terrorista

Las bases de datos de imágenes con las que estos modelos se han entrenado están llenos de fotos recopiladas de la red sin permiso; esto puede suponer una vulneración de derechos de autor.

Pero además, los propietarios de una de estas extensas colecciones de imágenes reconocen que incluso en su listado puede haber pornografía infantil e incluso propaganda de grupos terroristas, de acuerdo con Motherboard.

Las IA que generan imágenes se entrenan, por supuesto, con imágenes. Las IA generadoras de texto —e incluso traductores en línea— recopilan de la red textos. Sin embargo, esto representa problemas. De hecho, existen casos como el de un modelo preparado para dar respuestas éticas que empezó a lanzar insultos racistas y misóginos.

La razón no es otra que empezó a recopilar textos de toda la red sin discriminar qué contenidos incluía para entrenar a su modelo.

Los defensores acérrimos de este tipo de IA dicen que los sistemas pueden usar fotos, ilustraciones o producciones artísticas protegidas por derechos de autor sin estar robando, sino inspirándose: como cuando una persona visita un museo. El visitante de una galería no está robando con los ojos cuando contempla una obra.

Aquellos que se muestran más críticos no se detienen únicamente en los desafíos que esto puede tener para los derechos de autor. Stable Diffusion, por ejemplo, impulsó una organización sin fines de lucro llamada LAION que es la que ha generado el set de datos con el que se ha entrenado. Millones de imágenes no almacenadas, sino enlazadas.

El problema es que los sistemas automatizados que Motherboard señala se entrenan con sets de datos que incluían imágenes de terrorismo e incluso abuso infantil, se referían concretamente a LAION. La propia plataforma tiene una página web en la que puedes buscar tu nombre y comprobar si hay imágenes tuyas alimentando el modelo.

«Desvían la atención sobre los riesgos reales y ya presentes»

El dilema está servido; sin embargo, no tiene por qué ser abordado de manera inmediata. Algunos especialistas entienden que hay desafíos mucho más urgentes en el ámbito de la inteligencia artificial.

Alfonso Martínez, uno de los portavoces de la fundación Eticas que se dedica a auditar algoritmos a empresas privadas y administraciones, cree que estos sistemas desvían la atención.

«Este tipo de herramientas están desviando la atención sobre los riesgos reales e impactos negativos ya presentes de lo que podemos llamar IA», comenta Martínez. «Gobiernos y compañías ya emplean sistemas de tomas de decisiones automatizadas que impactan y afectan a la vida de ciudadanos y limitan derechos», agrega.

«Stable Diffusion, DALL-E y las herramientas basadas en procesado del lenguaje natural que crean textos de manera autónoma, o esa otra IA que diseñó miles de agentes químicos letales en menos de seis horas, sirven para perpetuar la imagen de la inteligencia artificial como si fueran robots asesinos, mientras que hay retos más inmediatos», abunda.

«Están reciclando datos racistas y sexistas»

La filósofa Carissa Véliz, autora de «Privacidad es poder» (2021, Debate), también está preocupada por el auge de estos modelos algorítmicos con macrobases de datos que optimizan al por mayor y no se detienen en seleccionar fuentes de datos útiles y más tratadas.

«Una de las cosas que más me preocupan de estos sistemas es que estamos creando herramientas tan complejas y tan grandes que somos incapaces de controlarlas adecuadamente», dice Véliz. «No solamente es que puedan causar daño, sino que también las compañías se están escudando detrás de esa complejidad para no tomarse más en serio su responsabilidad», agrega.

«Hemos visto a muchas tecnológicas a las que se les pide que arreglen algo y básicamente dicen que hacen lo posible; sin embargo, moderar demasiado contenido no es factible. Como si esa producción de contenido —en plataformas sociales— fuera un fenómeno natural. Como si dijeran que uno no puede arreglar cuando llueve o cuando no» explica.

«Me preocupa esa tendencia. Hay un incentivo para que las compañías desarrollen herramientas tan complejas: así no tienen que responsabilizarse luego de ellas», puntualiza Véliz.

Sobre herramientas que crean imágenes, la filósofa abunda en cómo ese tipo de modelos «reciclan datos históricos que entre otras cosas son racistas y sexistas».

Los modelos de inteligencia artificial que generan texto no respetan los derechos de autor o la privacidad

Véliz también dice que los generadores de texto aprovechan todo tipo de lenguaje de internet sin preocupación por los derechos de autor ni por la privacidad. «A uno de estos modelos les puedes preguntar dónde vive una persona o cuál es su tarjeta de crédito y a menudo se inventará la respuesta y dirá algo incorrecto; pero también a veces podrá dar una respuesta correcta», advierte.

«Todos estos problemas surgen de una cultura en la que se ha defendido durante muchos años que hay que tener el máximo de datos posibles y almacenarlos durante el mayor número de tiempo, en vez de pensar qué datos usaremos para entrenar esos modelos» explica la experta.

De esta manera, la autora enfatiza que siempre hay datos «mejores y peores». «Los hay más precisos, que reflejan mejor los ideales a los que aspiramos, que son más respetuosos con la privacidad; y datos que no, que son más imprecisos, ofensivos, reflejan lo peor del ser humano y de la sociedad, y que son tremendamente invasivos para la privacidad de las personas».

Pero mientras estas inteligencias artificiales creativas siguen generando textos e imágenes —e incluso algunas portadas de revistas impresas—, el debate sobre cómo se reúne el material con el que son entrenadas no termina de aterrizar. Y en ese material podrías estar tú.

AHORA LEE: Una obra de arte generada con IA ganó un concurso, desatando la ira de artistas e ilustradores

TAMBIÉN LEE: Esta inteligencia artificial escribió un artículo científico sobre sí misma en dos horas

Modelos de inteligencia artificial que generan arte o textos se entrenan con contenido dañino

Enlaces a pornografía infantil y a propaganda terrorista

«Desvían la atención sobre los riesgos reales y ya presentes»

«Están reciclando datos racistas y sexistas»

Los modelos de inteligencia artificial que generan texto no respetan los derechos de autor o la privacidad

Descubre más historias en Business Insider México

Síguenos en Facebook, Instagram, LinkedIn, Twitter, TikTok y YouTube

AHORA VE:

Amazon utiliza IA para encontrar el tamaño de caja adecuado para cada pedido

Elon Musk dice que ‘sabría’ si hay extraterrestres gracias a los satélites Starlink

Es fácil criticar la tecnología, pero comencé a usar robotaxis Waymo, y son increíbles

Huawei acaba de darle un nuevo dolor de cabeza a Tim Cook en China

China acaba de dificultar aún más el acceso a WhatsApp y Threads

Microsoft tiene el objetivo de acumular 1.8 millones de chips de IA para fin de año, según documentos internos