El 'boom' de la inteligencia artificial llega a la industria del podcast

Los contenidos generados por inteligencia artificial han sido notorios en el campo del arte e incluso la escritura.
Ahora, la tecnología de IA se está expandiendo a territorio sonoro, como la industria del podcast.
Business Insider España habló con dos expertos del sector del podcast para saber cómo podrían afectar la IA a sectores como la locución de voz.
¿Ya conoces nuestra cuenta de Instagram? Síguenos.

Las herramientas que utilizan inteligencia artificial (IA) para generar contenido han sufrido una especie de «boom» en 2022. El uso de IA parecía estar relegado a cuestiones mucho más técnicas como la logística o manejo de datos; sin embargo, distintas organizaciones han demostrado este año que también entra en el campo de la creatividad.

Esto se ha visto en sectores como el dibujo o el arte visual, con herramientas como DALL-E, MidJourney o Stable Diffusion; la edición de video, con propuestas como Make-A-Video; la redacción de textos, con ChatGPT; la edición fotográfica, con Lensa; incluso, la locución de voces «humanas», con iniciativas como Play.ht o VocaliD.

En este último caso, Business Insider España ya habló con dos actores de doblaje que en su momento señalaron que lo veían como algo lejano. Ambos profesionales aseguraron que no creían que la IA fuese a terminar con su trabajo en un futuro cercano; sin embargo, dijeron que, a largo plazo, podría traer más precariedad a un sector ya de por sí inestable.

Desde entonces han surgido nuevas propuestas relacionadas con la inteligencia artificial en el campo del audio y la locución de voces. Entre ellas, algunas tan llamativas como podcast.ai, un podcast producido enteramente por IA para mantener conversaciones que de otro modo serían imposibles, como en el caso del fundador de Apple, Steve Jobs.

Business Insider España entrevistó a dos expertos en el sector del podcast, el fundador de iVoox, Juan Ignacio Solera, y el cofundador de Evoco (una productora de podcasts corporativos), Eduard Pascual, para hablar sobre cuáles son los desafíos que plantea la llegada de la inteligencia artificial al podcast y la posible estandarización de estas en un futuro.

La llegada de la inteligencia artificial al podcast: podcast.ai

Play.ht es un programa que utiliza un generador de voces por inteligencia artificial para transformar texto a audio. «Convierte al instante texto en una voz natural y descárgala como archivo de audio MP3 o WAV», dice su página oficial, que afirma disponer de más de 800 voces entre las que elegir en más de 130 idiomas.

En septiembre de este año explicaron a través de su cuenta de Twitter que Peregrine, su modelo de conversión de texto a audio, había adquirido la capacidad de clonar voces con una calidad «sin precedentes» y publicaron un video en el que se podían escuchar varios ejemplos, como John F. Kennedy, Tom Hanks o el mismo dueño de Twitter, Elon Musk.

Un mes más tarde anunciaron que Play.ht comenzaba un podcast que no era «como cualquier otro». Se trataba de uno con contenido totalmente generado por inteligencia artificial en el que se utilizaba Peregrine para producir las voces y GPT-3 —el programa de generación de texto por IA de OpenAI— para generar el contenido de la conversación.

La iniciativa se llama podcast.ai, un programa que hasta ahora ha publicado dos capítulos en los que se puede escuchar al presentador estadounidense, Joe Rogan, entrevistando al fundador de Apple, Steve Jobs, y al investigador del MIT, Lex Fridman, conversando con el físico teórico, Richard Feynman.

El resultado, por el momento, no va más allá de la mera curiosidad de poder «escuchar» de nuevo a personas que desgraciadamente han fallecido antes de poder observar estas innovaciones, como Jobs y Feynman. Hay que reconocer que las voces que se escuchan son bastante realistas y los interlocutores interactúan bien entre sí, pero no deja de haber algo que no cuadra.

El contenido de la conversación en sí es bastante creíble; sin embargo, en ocasiones las voces dejan ver las costuras de la situación. A veces, las risas de los «locutores» suenan inconexas con lo que acaban de decir o se escuchan con un deje mecánico que evidencia que las están generando algoritmos. De ahí, quizá, que el propio programa antes de comenzar pida cierta «discreción al oyente».

‘Podemos observar que los resultados son imperfectos’

Al preguntarle al fundador de iVoox, una de las mayores plataformas de podcast en español, Juan Ignacio Solera, tiene claro que el resultado está lejos de alcanzar el que ofrece una persona humana.

«Si nos basamos en los trabajos realizados en trabajos artísticos por IA, podemos observar que los resultados son imperfectos», señala Solera. «Se puede percibir tanto en las manos, que distan mucho de ser un resultado óptimo, como en la simetría de la cara o incluso algunos ojos, si la persona utiliza gafas y las fotos que le proporcionan tienen algún reflejo».

Solera sostiene que «en el campo de la voz nos encontraremos con una situación similar, las IA no van a ser capaces de darle los matices y el mismo grado de profundidad a la voz frente al que le dan los locutores o actores de doblaje».

«Es posible que haya ciertos beneficios, sobre todo si queremos referenciar a un actor de doblaje que ya no está con nosotros», asegura Solera, refiriéndose a casos como los de Jobs o Feynman. «O incluso si realizas una ficción sonora en la que uno de los ‘personajes’ es una computadora o quisieses integrar sonidos», apunta.

El fundador de iVoox cree que, en esos casos, «ameritaría el desarrollo, porque además acortaría y abarataría los gastos de producción»; sin embargo, defiende que «es arriesgado». «Cuando trabajamos con una IA hacen falta varios intentos para conseguir un trabajo óptimo, si se realizase una producción donde la IA tuviese un papel largo y relevante esta podría jugarnos una mala pasada».

Ante la pregunta de si los podcast de inteligencia artificial y los que elaboran locutores reales podrían convivir en un futuro, Solera responde que ya existen casos similares. «Loquendo te permite convertir un texto en voz y en YouTube los más tímidos lo han usado para grabar los videos con otra voz, en TikTok por su parte existe la herramienta ‘Voz superpuesta'», comenta.

En el caso de su compañía, Solera especifica que no se han implicado con el desarrollo de este tipo de tecnologías «tan innovadoras»; pero que se posicionan junto al podcast independiente, «también si decide integrar las IA en sus proyectos y más si esto consigue darle valor añadido».

Por muy eficiente que sea la inteligencia artificial, nunca superará al factor humano en un podcast

El cofundador de Evoco, una productora de podcasts corporativos que ha sido reconocida en el 2022 por el Ayuntamiento de Barcelona por su proyecto empresarial, Eduard Pascual, opina de forma similar a Solera.

«Si con inteligencia artificial puedes hacer la voz de alguien que está muerto y que entreviste a alguien más… Pues bueno, entiendo que la experiencia es original, es un formato que puede hacer gracia», reconoce Pascual. «Es como cuando se han creado hologramas de artistas musicales fallecidos y han hecho conciertos».

Sin embargo, Pascual no cree que la IA supla o amenace el trabajo de locutoras y locutores. «Por muy bien hecha que esté esa inteligencia artificial… obviamente nunca será lo que el podcast desprende, que en este caso es humanidad».

Pascual hace referencia a la relación de cercanía que se desarrolla entre un locutor y su oyente en el formato podcast: «La naturalidad de una persona hablándote a tu oído y captando tu atención durante ese rato que tú le has dedicado…». Esto es algo que, según él, es difícil que se consiga con una voz generada por inteligencia artificial, por muy bien hecha que esté.

«Somos un país donde hay muchísimos profesionales de la voz; en el ámbito del doblaje; de los audiolibros; el publicitario; incluso en el mundo de la locución, en el caso tanto de la radio como del podcast», expresa Pascual. «Entonces claro, yo en ese aspecto no comparto mucho que exista una tecnología para suplir a estos profesionales».

Pese a mostrar cierto escepticismo con la aplicación de la IA a la locución de voz, Pascual sí que ve con buenos ojos su utilización en el campo de la producción sonora.

«Adobe ha creado una herramienta que mediante IA ayuda a mejorar la calidad del sonido de las grabaciones de los podcast. Es como una herramienta para la edición y para mejorar la calidad del sonido de las grabaciones», explica, refiriéndose a la eliminación de ruidos indeseados. «En ese aspecto sí que la inteligencia artificial nos puede ayudar mucho a que el resultado final salga impecable».

El ‘boom’ de la inteligencia artificial llega a la industria del podcast

La llegada de la inteligencia artificial al podcast: podcast.ai

‘Podemos observar que los resultados son imperfectos’

Por muy eficiente que sea la inteligencia artificial, nunca superará al factor humano en un podcast

Descubre más historias en Business Insider México

Síguenos en Facebook, Instagram, LinkedIn, Twitter, TikTok y YouTube

AHORA VE:

SpaceX está construyendo una nave espacial superpoderosa para desmantelar a la Estación Espacial Internacional

El tren de la inteligencia artificial va a toda marcha, pero no se vislumbran ganancias

El nuevo prototipo SearchGPT de OpenAI es una declaración de guerra contra Google

¿Por qué los atletas en la Villa Olímpica encuentran algunas funciones de Grindr deshabilitadas?

Cameo alguna vez estuvo valorado en 1,000 mdd; ahora está en quiebra y ni puede pagar una multa de 600,000 dólares

Los imperdonables errores de la IA que los científicos y empresarios intentan solucionar