• Investigadores de ByteDance, el propietario de TikTok, crearon un convertidor de voz continuo habilitado con IA.
  • StreamVoice permite al usuario hablar con cualquier otra voz; sólo necesita "una expresión" de esa voz.
  • La suplantación de personajes públicos mediante IA, o la creación de "deepfakes", se está volviendo más común.
  • ¿Ya conoces nuestra cuenta en Threads? Síguenos.

ByteDance, propietaria de TikTok, creó una nueva manera para que las personas cambien inmediatamente su voz por la de otra persona utilizando inteligencia artificial (IA) generativa.

La herramienta, llamada StreamVoice, aún no está disponible públicamente, sin embargo, muestra el rápido desarrollo de la IA generativa que permite imitaciones visuales y auditivas fáciles y convincentes de figuras públicas, a menudo denominadas deepfakes.

Ya este año, la gente ha utilizado la IA generativa para hacerse pasar por la cantante Taylor Swift y el presidente Joe Biden, a medida que se acercan las elecciones de 2024.

Varios investigadores técnicos de ByteDance, y otros de la Universidad Politécnica Northwestern —una escuela en China conocida por su trabajo con el ejército del país— crearon StreamVoice. La Universidad Politécnica Northwestern no está afiliada a la Universidad Northwestern en Estados Unidos.

¿Cómo funciona StreamVoice de ByteDance?

Los investigadores dijeron en un artículo que StreamVoice puede realizar una «conversión en tiempo real» de la voz de un usuario a cualquier otra; siempre y cuando el usuario tenga solo «una expresión» de la voz que desea imitar.

La salida se produce a la velocidad de la transmisión en vivo, con solo 124 milisegundos de latencia, según el documento. Los investigadores señalaron que «los recientes avances en el modelo de lenguaje» les permitieron crear esta herramienta.

Los investigadores escribieron: «Los experimentos demuestran la capacidad de StreamVoice para convertir el habla de manera continua con alta similitud de voz, tanto para hablantes conocidos como desconocidos, al tiempo que mantiene un rendimiento comparable al de los sistemas de conversión de voz no continua.»

El documento, que cita el modelo de lenguaje grande Llama de Meta —que ha ganado popularidad desde su lanzamiento inicial hace un año— dice que los investigadores construyeron StreamVoice utilizando «la arquitectura LLaMA». También utilizó código fuente abierto de AudioDec de Meta. Los investigadores entrenaron la herramienta principalmente en conjuntos de habla mandarín y un conjunto multilingüe que incluía inglés, finlandés y alemán, según el artículo.

Esta tecnología de IA generativa presenta varios riesgos

Los investigadores no describieron cómo creen que la gente debería usar StreamVoice; sin embargo, admitieron que «puede conllevar riesgos potenciales de uso indebido para diversos fines, como difundir información falsa o fraude telefónico». Sugirieron que las personas informen sobre el uso ilegal de la conversión de voz a las autoridades correspondientes.

Los expertos en inteligencia artificial llevan años advirtiendo sobre la proliferación de deepfakes a medida que la tecnología mejora.

Recientemente, una llamada automática con un deepfake de Biden le dijo a la gente que no votara en las primarias de New Hampshire. El Departamento de Justicia de New Hampshire está investigando esta llamada automática.

AHORA LEE: Cómo identificar imágenes creadas por inteligencia artificial, según una IA

TAMBIÉN LEE: 73% de internautas a nivel mundial confía en contenido creado por inteligencia artificial generativa, señala estudio

Descubre más historias en Business Insider México

Síguenos en Facebook, Instagram, Twitter, LinkedIn, YouTube, TikTok y Threads

AHORA ESCUCHA:

AHORA VE: