Reflexionando sobre la síntesis de voz

Estamos en el año de la eclosión de los sistemas de inteligencia artificial para apoyar distintas facetas del proceso creativo. En estas últimas semanas todos estamos oyendo hablar de OpenAI y de las interesantes posibilidades que ofrecen a los creadores de contenido. Aunque de lo que hablaremos aquí es la síntesis de voz, nos hemos permitido hacer una pequeña prueba en otro contexto. Le hemos pedido a tan demandado recurso que nos escriba un artículo sobre las voces sintéticas en el mundo del audiolibro. Y fijaos lo que nos ha creado en apenas 10 segundos.

En fin que, como veis, si nuestro objetivo fuera solo el de presentar la síntesis del habla, aquí se habría acabado el trabajo. Pero como lo que nos interesa es reflexionar algo más en profundidad sobre ello, conviene que sigamos avanzando.

Y, no obstante, esto que vemos con OpenAI ejemplificará lo que defenderemos aquí sobre el uso de la IA en el mundo del audio. Nos referimos a que, bueno, el sistema nos ha cubierto un contenido básico, bien documentado y bastante acertado en sus conclusiones. Pero parco, pobre. Si quisiéramos presentar un estudio académico sobre ello, difícilmente esto nos serviría.

Y eso mismo pasa con los sistemas de voz. En Vintalis llevamos meses usando voces sintéticas para la narración de audiolibros. Y nuestras conclusiones son bastante buenas. Con ellas hemos logrado que editoriales que no pueden dedicar demasiados recursos para contratar narradores profesionales se permitan también saltar al mundo del audiolibro. Y de forma bastante decente, aunque no tan buena como la que está protagonizada por la voz de personas reales.

Pero, bueno, es que eso es la vida misma. Cuando estamos ante una gran editorial, con sobrados recursos económicos, una edición tradicional es también un camino caro y poblado de hitos muy costosos. La selección, la corrección ortotipográfica y de estilo, el desarrollo de la marca del autor, los book trailers… Y un sin fin de cosas que, probablemente, las editoriales medias y pequeñas no pueden permitirse al mismo nivel. Pero es que estas editoriales son esenciales en el ecosistema de la edición para nuestra lengua. Y, aunque sus ediciones no hayan contado con tanto recursos, seguro que son lo suficientemente buenas como para que puedan llegar a su público. Lanzarán a a autores desconocidos y, en fin, nos harán a todos disfrutar con excelentes historias.

Nos gustaría dejaros aquí algunos ejemplos de lo que hemos producido con voz sintética, usando distintas voces y herramientas de IA. Os dejamos el enlace a distintas plataformas para que podáis oírlas en unas u otras en función de aquella a la estéis suscritos.

En ese momento tenemos varias más en producción por lo que pensamos que el sector está apostando ya con fortaleza por este tipo de producciones. Prueba de ello es la reciente noticia de que Apple Books ha creado una sección para los audiolibros narrados con voces sintéticas. Y no solo eso, además, van a ofrecer a los editores un sistema gratuito, consistente en la traducción a audio de cualquier eBook.

Y ahí es donde me gustaría poner el énfasis y dejar claro nuestro punto de vista. Punto de vista logrado a través de la experiencia de trabajo con este tipo de soluciones.

Nosotros pensamos que la traducción automática de un texto a audio no es posible si se quiere dejar un producto de calidad razonable. Cuando creamos audiolibros con voces sintéticas, lo hacemos trozo a trozo del texto, oyéndolo y corrigiendo la entonación según se precisa. Los autores, además, introducen recursos complejos en sus obras. Por ejemplo, con una nota a pie de página. ¿Qué haría un sistema automático? ¿leer la nota al final de la página, tal cual, de modo independiente a cómo terminara el párrafo en dicha página? Y si el autor ha metido un poema en ruso o malayo, ¿qué haría el sistema automático? ¿fonetizar aquello como dios le diera a entender? ¡Ufff!, qué difícil. Pues como estas, miles de cosas más que harían de esa escucha una experiencia torturante.

Los sistemas de IA para la voz, tal cómo hemos visto con el artículo escrito por OpenAI, sirven de gran apoyo al trabajo creativo. Pero difícilmente podrán sustituirlo. Pruebe el lector a oír un PDF con el motor de lectura que Acrobat pone para ello. Y piense si ese tipo de experiencia automática sería adecuada para la narración de audiolibros.

Y, sin embargo, todo esto nos genera duda y, quizá miedo. Solo tenemos que recordar como no muchos años atrás oíamos música con una calidad digital asombrosa, en un soporte CD que era capaz de guardar los aspectos más seductores del sonido. La reproducíamos en equipos con unos amplificadores brutales y unos altavoces del carajo. Y todo eso lo cambiamos por un cutre formato MP3 que oímos en nuestro teléfono móvil. Hemos cambiado la calidad por la facilidad de acceso. Y nos tememos que eso, al igual que sucede en el mundo de la música, pueda suceder en otros entornos culturales.

Pero, en fin, mientras tanto, nosotros seguiremos trabajando en el entorno que más nos gusta que es el de los narradores profesionales. Sin olvidar a las voces sintéticas. Pero siempre manejadas estas últimas por un humano que las maneje para lograr la mejor calidad posible en el producto final. Y lo que tenga que venir, que venga.

Y para demostrar que no solo no nos oponemos a este tipo de soluciones sino que somos fans de las mismas, os hacemos notar que la imagen destacada de este artículo es un robot narrando un audiolibro que ha sido creado por DALL-e, la herramienta para imágenes de OpenAI.

Reflexionando sobre la síntesis de voz

Comparte esto:

Deja una respuesta Cancelar la respuesta