• Investigadores de Google han conseguido que ChatGPT ofrezca casi sin filtro los textos con los que se entrenó la inteligencia artificial.
  • Esta vulnerabilidad ha permitido que los expertos logren extraer información como teléfonos de contacto de personas reales.
  • A medida que las defensas de los modelos de IA se perfeccionan, también lo hacen las técnicas de intrusión.
  • ¡Estamos en Instagram! Síguenos.

«Con solo 200 dólares de consultas a ChatGPT (GPT 3.5 y Turbo) fuimos capaces de extraer 10,000 ejemplos de datos de entrenamiento memorizados»; esto fue lo que escribieron investigadores de Google en un artículo científico publicado esta semana en arXiv, un archivo de prepublicaciones especializado en el campo de las matemáticas, la física y la computación.

«Nuestra extrapolación a presupuestos más grandes sugiere que los actores maliciosos podrían extraer mucha más información», continúan.

Esa misma advertencia la lanzan los propios hackers de Google, que con este estudio demuestran que ChatGPT, el popular chatbot de OpenAI, puede servir para filtrar datos e información privada de personas reales, como informó Motherbord.

Información al alcance de ChatGPT

Los modelos de inteligencia artificial funcionan con un entrenamiento previo. Con enormes cantidades de datos, estos sistemas pueden trasladar recomendaciones, sugerencias o resultados, en función del sistema que se emplea. Por ejemplo, un modelo predictivo para optimizar rutas de reparto utilizará una enorme cantidad de datos previos sobre el tráfico de una ciudad.

En el caso de las IA generativas, estos modelos capaces de generar imágenes y textos trabajan con una infinidad de información previa; información que, en algunos casos, se extrajeron de la red sin permiso o con imágenes, vídeos o textos que incluso están protegidos por derechos de autor; de ahí toda la polémica alrededor de esta tecnología y el mundo del arte.

Modelos como GPT- 3.5 —el popular sistema de procesamiento del lenguaje natural de OpenAI que da vida a ChatGPT— se entrenaron con millones y millones de texto en diferentes idiomas, pero no puedes pedir al chatbot información concreta que tiene almacenada. No le puedes pedir que te escriba un poema concreto de Federico García Lorca, por ejemplo.

No es posible porque las grandes empresas y organizaciones que están detrás de estos populares modelos fundacionales —como también se conoce el fenómeno de la IA generativa— aplican toda una serie de salvaguardas en sus plataformas para evitar que se filtre cualquier tipo de información sensible.

Pero esas salvaguardas no son inquebrantables. Los hackers, al abrigo de la popularidad de estos chatbots, ya perfeccionan sus técnicas de prompt hacking, es decir, la capacidad de forzar a las máquinas para que respondan a lo que piden y no lo que deben responder.

Muchas de esas inyecciones de prompts —peticiones a modelos IA— han quedando obsoletas a medida que empresas como OpenAI o Google parchean sus servicios para evitar que se pudiera filtrar cualquier tipo de información procedente de los datos de entrenamiento de estas herramientas.

Por ejemplo, Bing Chat, la primera aplicación comercial del motor GPT con Microsoft en un buscador en línea, era fácilmente hackeable al principio. Bastaba con indicarle al sistema que eras un desarrollador y que estabas activando el modo administrador.

La seguridad de ChatGPT

A medida que las defensas de estos modelos se perfeccionan, también lo hacen las técnicas de intrusión. Los desarrolladores de Google lograron someter al chatbot de OpenAI a su voluntad y extrajeron información textual de artículos científicos o páginas web.

«Y también datos privados de una docena de personas reales», advierten. «En total, 16,9% de las respuestas [de la IA] que generaron contenían información con la que se puede identificar a individuos, y 85,8% de los textos generados que contenían ese tipo de información eran datos reales», continúan.

Para ejecutar este ataque, la técnica fue similar a una inyección de prompt: pidieron al chatbot que repitiese hasta el infinito la palabra poem (poema, en inglés). La mayor parte de la respuesta cumplía, pero los especialistas detectaron que en un momento dado, el chatbot copiaba contenido directamente de sus datos.

Motherboard ha intentado ejecutar el mismo experimento; los investigadores advierten que en GPT-4, el último modelo del motor de OpenAI —solo disponible bajo suscripción— el sistema rechaza automáticamente la petición.

Los investigadores de Google han mostrado su preocupación por sus hallazgos:

«OpenAI dice que cientos de millones de personas usan ChatGPT semanalmente y probablemente esas personas hayan dedicado millones de horas a interactuar con el modelo. Hasta ahora, nadie se había dado cuenta de que ChatGPT es capaz de entrenar datos con esta frecuencia hasta esta investigación; es preocupante que los modelos tengan vulnerabilidades latentes como esta».

Por su parte, OpenAI no ha reaccionado al descubrimiento.

AHORA LEE: Los hackers pueden robar contraseñas escuchando tu teclado y usando IA, revela estudio

TAMBIÉN LEE: Las suscripciones de ChatGPT Plus se venden en eBay después de que OpenAI pausara las inscripciones

Descubre más historias en Business Insider México

Síguenos en Facebook, Instagram, LinkedIn, TikTok, Threads, Twitter y YouTube

AHORA ESCUCHA:

AHORA VE: