• Investigadores de Microsoft están desarrollando una IA llamada VALL-E que capaz de sintetizar cualquier tipo de voz escuchando un audio de tres segundos.
  • Microsoft también está desarrollando VALL-E para que funcione con otros modelos de IA generativa, como GPT-3
  • La IA es capaz de imitar el ruido ambiental y, además, conseguir casi la misma emoción de un interlocutor.
  • ¿Ya conoces nuestra cuenta de Instagram? Síguenos.

Microsoft comenzó 2023 apostando fuerte por herramientas de inteligencia artificial (IA) como ChatGPT, la cual añadirá al buscador Bing antes de abril para competir contra Google. Ahora, su equipo de investigación está desarrollando a VALL-E.

Este es un modelo de lenguaje para la síntesis de texto a voz (TTS) capaz de aprender la voz específica de una persona con solo «escuchar» tres segundos de audio. Microsoft también está desarrollando VALL-E para que funcione con otros modelos de IA generativa, como GPT-3. Esto significa que ChatGPT sería capaz de ofrecer resultados de voz una vez integrado este modelo.

La nueva IA de Microsoft es algo parecido a FakeYou, una herramienta que se hizo popular a mediados del año pasado por imitar diferentes voces de celebridades o personajes de ciencia ficción.

¿Cómo funciona la nueva IA de Microsoft para imitar voz?

Por su parte, VALL-E utiliza un modelo de lenguaje de códec natural. Esto significa que sigue el mismo que Meta desplegó en octubre de 2022, mediante un tipo de tecnología conocida como EnCodec.

Esta divide la información en pequeños componentes, denominados tokens, y usa los datos de entrenamiento de la IA para comparar lo que ya conoce con la utilización de una voz concreta.

Curiosamente, Microsoft también ha utilizado una biblioteca de audio llamada LibriLight, desarrollada por Meta, aunque contiene mayormente conversaciones de habla inglesa de más de 7,000 personas de la plataforma LibriVox.

VALL-E también es capaz de sintetizar muestras de voz con el ruido ambiente y con un nivel sorprendente de emoción. Desgraciadamente, de momento no se pueden obtener ejemplos en español.

La IA VALL-E tiene presenta riesgos potenciales de mal uso

Los investigadores de Microsoft quieren aprovechar esta IA para mejorar la calidad en las herramientas TTS en aplicaciones como WhatsApp, por ejemplo. Sin embargo, también lanzan una advertencia ante el uso indebido de este tipo de tecnologías.

«Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo; como falsificar la identificación de voz o hacerse pasar por un hablante específico», especifican. 

«Para mitigar tales riesgos, es posible construir un modelo de detección para observar si un clip de audio ha sido sintetizado por VALL-E», agregan. «También pondremos en práctica los principios de IA de Microsoft cuando desarrollemos más los modelos». 

Habrá que ver si Microsoft utiliza este modelo en alguno de sus productos o, simplemente, es otro avance más en un año que promete ser el despegue definitivo de la IA generativa.

AHORA LEE: Con Bing y ChatGPT, Google está a punto de enfrentarse a una competencia real por primera vez en 20 años

TAMBIÉN LEE: La inversión de 1,000 mdd de Microsoft en el creador de ChatGPT puede ser la más inteligente en la industria tecnológica

Descubre más historias en Business Insider México

Síguenos en FacebookInstagramLinkedInTwitterTikTok y YouTube

AHORA VE: