• Un grupo de investigadores dijo que encontró maneras de eludir la moderación de contenido de chatbots de IA como Bard y ChatGPT.
  • Un investigador involucrado en el estudio le dijo a Wired que "no había forma" de parchear los ataques.
  • "Simplemente no sabemos cómo hacerlos seguros", dijo, refiriéndose a los bots convencionales impulsados ​​por IA.
  • ¿Ya conoces nuestra cuenta de Threads? Síguenos.

Un grupo de investigadores dijo que encontró maneras «prácticamente ilimitadas» de eludir la moderación de contenido en chatbots impulsados ​​por inteligencia artificial (IA) — como ChatGPT de OpenAI, Bard de Google y Claude de Anthropic—, y nadie está seguro de cómo solucionarlo.

En un informe publicado la semana pasada, los investigadores de la Universidad Carnegie Mellon en Pittsburgh y el Centro para la Seguridad de la IA en San Francisco dijeron que habían encontrado maneras de romper las estrictas medidas de seguridad impuestas a los principales chatbots de IA.

Los jailbreaks se crearon de una manera completamente automatizada que, según advirtieron, permitía crear un número «prácticamente ilimitado» de ataques similares. Los investigadores encontraron que los hacks socavaron las barreras de seguridad de la mayoría de los principales chatbots y, en teoría, podrían usarse para incitar a los chatbots a generar contenido de odio o asesorar sobre actividades ilegales.

Los investigadores advierten que no existe una solución actual para este problema de seguridad en ChatGPT y Bard

«Que sepamos, no hay forma de parchear esto», dijo a Wired Zico Kolter, profesor asociado de CMU que participó en un estudio. «Simplemente no sabemos cómo hacerlos seguros».

Armando Solar-Lezama, profesor de informática en el MIT, dijo a Wired que era «extremadamente sorprendente» que los ataques —que se desarrollaron en un modelo de IA de código abierto— funcionaran tan bien en los sistemas principales. El estudio plantea preguntas sobre la seguridad de los productos de IA disponibles públicamente como ChatGPT.

Al preguntarle sobre el estudio, un portavoz de Google le dijo a Insider que el problema afectaba a todos los modelos grandes de lenguaje. El vocero agregó que la compañía había incorporado importantes medidas de protección en Bard que planeaban «mejorar con el tiempo».

Un representante de Anthropic calificó las medidas de jailbreak como un área de investigación activa y dijo que había más trabajo por hacer.

Los representantes de OpenAI no respondieron de inmediato a la solicitud de comentarios de Insider, realizada fuera del horario laboral normal.


AHORA LEE: 4 indicaciones para que tus chatbots de IA se verifiquen a sí mismos y no inventen cosas

TAMBIÉN LEE: Incluso la propia herramienta de detección de OpenAI no puede distinguir contenido generado por IA

Descubre más historias en Business Insider México

Síguenos en Facebook, Google News, Instagram, LinkedIn, TikTok, Threads, Twitter y YouTube

AHORA ESCUCHA:

AHORA VE: