Nuestra época se caracteriza cada vez más por la automatización de tareas que tradicionalmente realiza el ser humano. Y, nos guste o no, el mundo de la voz no permanece ajeno a esa tendencia. En este ámbito nuestro, el asunto procede de los denominados sistemas TTS (Text to Speech). O, en nuestro román paladino, sistemas de síntesis del habla. Para los narradores mencionar este tipo de sistemas es mentarles a la bicha. En cambio, quizá, los editores que contratan las narraciones pensarán que el TTS les permitirá acortar el proceso de producción y bajar sus costes. Por último, las productoras de voz, verán en ellos una nueva oportunidad de negocio.
Muchas y diferentes caras para una misma cosa. Tratemos de poner un poco de sensatez en todo este meollo. Lo primero que hemos de tener en cuenta es lo que la tecnología nos ofrece en este momento. Y si queremos comenzar a trabajar con este tipo de sistemas hemos de saber que en el mercado podemos encontrar hoy abundantes alternativas. Casi todas las grandes tecnológicas ponen ya a nuestra disposición sus sistemas de Text to Speech. La mayor parte de ellas lo hacen a través de sus entornos cloud. Por ejemplo, en Amazon tenemos Polly como uno más de sus servicios dentro de AWS, Google lo inserta en su Google Cloud, Microsoft en Azure, IBM en el IBM Watson Studio.
En general, todas ellas nos ofrecen algún pequeño conjunto de voces ya empaquetadas y listas para su uso. A lo que suelen añadir potentes API que nos permiten desarrollar nuestros propios sistemas o completar y mejorar los existentes.
Hasta hace poco, cuando oíamos alguna de estas voces generadas automáticamente, nos chirriaba un desagradable sonido a lata, totalmente escaso de matices. Pero esto ha cambiado mucho, hoy disponemos de las que se denominan voces neurales o neuronales que tienen un fuerte nivel de realismo. También podemos trabajar con el denominado Speech Synthesis Markup Language (SSML), un lenguaje de marcas que nos permite definir varios atributos de tonalidad a las voces con las que estamos trabajando.
Y, bien, visto todo esto, ¿cuál es nuestra opinión? Para exponerla nos gustaría que tuviéramos en cuenta un par de asuntos. El primero está relacionado con el carácter artístico del proceso de narración. Desde este punto de vista no es posible hoy sustituir la voz de un narrador humano por una voz neural. Los matices, tonalidades, énfasis, cambios de ritmo, actuación a la hora de leer… Todo ello son cosas imposibles de emular al cien por cien. El segundo tiene que ver con el momento en que nos hallamos respecto a la producción de audiolibros. Estamos ante un sector con fuerte crecimiento, las editoriales no pueden quedarse fuera del mundo de la voz. Pero la narración con narradores profesionales es costosa y larga en el tiempo. Y no todas las editoriales tienen los recursos suficientes como para ir generando su fondo editorial como audiolibros.
Por tanto, el Text to Speech representa una oportunidad para quienes no pueden quedarse fuera del mundo de la voz, pero que carecen de los recursos suficientes como para abordar este proceso con narradores profesionales. En Vintalis, trabajamos con la doble alternativa. Obviamente, preferimos la narración humana. Nuestras voces, como decimos en nuestro lema, están ahí para dar brillo a las historias. Pero, también ofrecemos servicios de síntesis del habla para quienes desean trasladar a audiolibro su fondo editorial, pero quieren hacerlo a través de una alternativa más económica.
Y como no nos gusta hacer las cosas mal, lo que ofrecemos es un sistema de tratamiento del audio, usando SSML y postproducción sonora. Lo que intentamos es completar las voces neurales que seleccionamos para que el resultado narrativo mejore respecto al empleo simple de las mismas. Trabajamos con varios de los sistemas antes mencionados y con otros conjuntos de voces de entre los que en este momento se pueden encontrar en el mercado. Pero, nuestra aportación fundamental, está en la postproducción.
A continuación os dejamos algunos ejemplos para que veáis qué tipo de resultados se pueden obtener. En este caso partimos de una voz seleccionada de Amazon Polly. La hemos puesto a narrar un pequeño texto del Frankenstein de Mary Shelley. Y para que no os resulte muy aburrido lo hemos hecho en unos vídeos animados. El primero muestra simplemente el resultado tal como sale de la factoría de Polly. Solamente le hemos quitado algunas impurezas de sonido y lo hemos nivelado en LUFS y dB para que entre dentro de los estándar del mercado de los audiolibros:
Pero, trabajemos ahora para mejorarlo. En el siguiente hemos tratado de darle a la voz un matiz sonoro más profundo. Para ello le hemos aumentado levemente el nivel de graves, le hemos puesto un poco de reverberación y, para terminar, le hemos disminuido levemente la velocidad. Con todo ello logramos un efecto sonoro más pleno para el oyente.
Sigamos. Supongamos que queremos dar un matiz más senior a la voz. Queremos que el habla de la mujer represente algo más de edad. Para ello hemos aumentado levemente el nivel de graves, hemos alterado levísimamente el tono de la voz y hemos vuelto a reducir, también muy levemente la velocidad. Veamos el resultado,
Por último, tenemos el efecto contrario. Queremos una narradora más infantil y para ello ponemos más agudos, más velocidad y aplicamos también un leve cambio del ritmo narrativo.
En fin, cada uno que juzgue ya si esto es válido para sus obras o no.