En los últimos meses, el auge de la llamada Inteligencia Artificial Generativa está ocasionando un gran debate social. Los distintos agentes del ámbito de la voz no son ajenos al mismo. Y esto es así porque el apogeo de la síntesis del habla es uno de los elementos clave en este proceso. Aunque en español aún no han llegado a popularizarse demasiado las tecnologías que permiten crear voces sintéticas, las del idioma inglés pueblan ya el mercado.
A través de ellas se pueden hacer muchas e interesantes, a la par que inquietantes, cosas. Por ejemplo, sintetizar voces nuevas partiendo de la combinación de otras particulares. También clonar la voz de cualquiera para obtener su versión sintética. Y, no menos relevante, adiestrar una voz para que su parecido con la original sea sumamente cercano. Todas las grandes tecnológicas están realizando potentes avances en este área tecnológica. Y quizá la última más relevante sea el anuncio de Vall-e de Microsoft. Se trata de una tecnología aún en fase de desarrollo, pero que permite clonar una voz con unos pocos minutos de grabación del original.
Obviamente, el desarrollo de estos sistemas plantea muchas dudas a los distintos agentes que participan en el proceso de usar la voz para cualquier finalidad. Por ejemplo, en el mundo de los profesionales de la voz existe mucha inquietud. La posibilidad de que su trabajo sea sustituido por el de una máquina no deja de ser perturbadora. Y más aún cuando piensan que sus voces pueden ser usadas para la creación de un modelo sintético sin su permiso previo.
En este orden de cosas, sus asociaciones profesionales han lanzado manifiestos que les invitan a que en ningún caso autoricen el uso de su voz para ser sintetizada. Al menos hasta que no exista una legislacion que proteja claramente sus intereses. Para ello incluso piden una moratoria en el proceso de puesta en marcha de los sistemas basados en IA para la sintetización de la voz. E, incluso, lo que quizá sea más exagerado «…garantizar que se respeten los derechos y la dignidad de los Profesionales de la voz creando cláusulas que impidan todo uso y entrenamiento de tecnologías de Inteligencia Artificial de voz». Tal como reza el comunicado lanzado por las asociaciones mencionadas
No deja de recordarnos esto a fenómenos anteriores como el de los denominados Luditas. Este término identifica a un movimiento que se oponía al proceso de industrialización creciente que se desarrollaba en Europa a principios del siglo XIX. El impulso a la maquinización que se estaba registrando en esas fechas hizo que se perdieran muchos puestos de trabajo. Y ello impulsó a los luditas a oponerse con cierta violencia a dicho proceso. Como la historia nos demuestra, el movimiento ludita no logró sus objetivos. El proceso de maquinización era imparable y las acciones de los luditas en ningun momento lograron detenerlo.
Más allá de las dudas que estos sistemas generan entre los locutores profesionales, no deja de inquietar también a la sociedad el hecho del posible empleo de las voces clonadas para usos delictivos. Podemos buscar por la web grabaciones de voz o vídeos de YouTube de una persona y, a través de ellos, crear su voz clonada. Una vez hecho esto podríamos suplantar a esa persona en cualquier procedimiento donde la voz sea un criterio de identificación necesario.
Contrariamente, otros agentes están expectantes ante la eclosión de estas tecnologías. En general, cualquier posible usuario de las mismas. Veamos simplemente el ejemplo de las pequeñas editoriales que no quieren quedarse fuera del mundo del audiolibro. Los elevados costes de producción con voz natural no les permiten acceder a este mercado, pero sí podrían hacerlo con voces sintéticas a precios mucho más económicos. Por supuesto, también todos aquellos que usan la voz en sus sistemas de atención al cliente. O los autores de podcasts que quieren usar la propia voz en sus programas, pero que no tienen ni el tiempo ni la capacitación necesaria para grabar cada una de sus intervenciones. Y tantos otros que se verán beneficiados por el mayor perfeccionamiento de estas tecnologías.
«…para los narradores esto también abre un nuevo abanico de posibilidades profesionales siempre que se encauce adecuadamente.«
Desde nuestro punto de vista, el sector de la voz debe acostumbrarse a la convivencia con el fenómeno de la síntesis del habla. Esto no quiere decir que la figura del locutor profesional vaya a desaparecer. Ni mucho menos. Las grandes editoriales querrán seguir teniendo en su plantilla a esos estupendos narradores que tanto sentimiento transmiten con su trabajo. Pero habrá otros contextos en que las voces generadas a través de IA tengan cabida. Y para los narradores esto también abre un nuevo abanico de posibilidades profesionales siempre que se encauce adecuadamente.
Algunas legislaciones tienen ya desarrollado el derecho sobre la propia voz. En España esto es una extensión más de los derechos de imagen de las personas. En cualquiera de los casos, sería ilegal emplear la voz de una persona para obtener un clon sintético sin la autorización de dicha persona. Piénsese en lo complejo que puede ser para determinadas celebrities controlar el uso inadecuado de su imagen. Y, sin embargo, se hace.
¿Por qué no ha de hacerse igualmente para la voz? Un autor cede los derechos de su obra a una editorial por un periodo de tiempo y, a cambio, recibe unos royalties proporcionales. Igual lo hace un músico. Un deportista cede sus derechos de imagen a una marca por un precio pactado, por un tiempo determinado y con unas condiciones concretas. Si todo esto es así, no entendemos porqué en el mundo de la voz esto no puede hacerse de igual modo.
«Lo que debemos fomentar entre todos los agentes que participamos en este proceso son una reglas de juego razonables, unas remuneraciones justas y unas condiciones contractuales sensatas y que no violen la ley. «
Lo que debemos fomentar entre todos los agentes que participamos en este proceso son una reglas de juego razonables, unas remuneraciones justas y unas condiciones contractuales sensatas y que no violen la ley. En un futuro, quizá haya un marco jurídico que nos aclare más las cosas. Pero mientras tanto las compañías tecnologicas deben ser conscientes de que solo deben hacer uso de voces para las que tengan autorización. Y los profesionales que decidan ceder su voz deben obtener la remuneración adecuada a ello. Además, por supuesto, de tener toda la información sobre qué ventas se están produciendo de algo que les pertenece y qué remuneración obtendrán por esas ventas.
Igualmente, estas empresas deberían controlar que los sistemas de clonación no estuvieran abiertos a la libre disposición de cualquiera que quisiera clonar la voz de personas para las que no poseen la autorización necesaria. Me consta que Microsoft, por ejemplo, está haciendo un serio esfuerzo a este respecto.
Evidentemente, sobre los profesionales sobrevuela la imagen tantas veces mencionada de la voz en castellano de determinado asistente tecnológico. Si para la creación de una voz sintetica de estas características simplemente se han contratado un par de horas de grabaciones puede que por unos pocos cientos de euros se haya liquidado el proceso. Con ese tiempo de narración es más que posible adiestrar una voz y una vez obtenida esta, se puede usar para cualquier finalidad.
Pero es que la propiedad de la voz recae sobre su propietario y, por tanto, la compañía que la emplea no debería tener derecho a usarla si no remunera justamente al narrador. Es decir, una cosa es comprar el tiempo de narración que se considere adecuado para el adiestramiento de la voz sintética y otra la remuneración posterior por el uso que se haga de la misma. Todo esto, lógicamente, debe pactarse en un contrato que regule la relación entre quien cede la voz y quien la comercializa.
Esto nos lleva a otra conclusión clara. El mercado debe distinguir con claridad lo que es una voz que no procede de una fuente bien identificada, de otra que sí lo hace. Cuando en la actualidad usamos cualquier sistema de Text to Speech, nos encontramos con las Lucías, Álvaros, Manueles, Lauras… que son voces que se han creado partiendo de personas reales pero que quienes las usamos no podemos identificar. Vamos a suponer que esas voces se crearon de forma legalmente razonable y que la empresa que las creó pagó adecuadamente a dichas personas para que su voz apareciera de forma no identificada en multitud de sistemas. Pero no podemos dejar de albergar ciertas dudas al respecto.
Nosotros simpatizamos más con un ecosistema de voces bien trazadas, donde la identificacion del locutor aparezca correctamente determinada y donde la empresa que las ha creado haya llegado a un acuerdo legal y económico, en todas sus vertientes, con dicho profesional. El que usa una voz sintética debe saber quién es la persona a la que pertenece, más allá de que emplee un algoritmo que reproduce su voz en lugar de una narración real.
Es en este orden de cosas que las propias recomendaciones de la Unión Europea sobre la IA inciden en la correcta identificación de las fuentes. Sin ello no es posible validar cualquier producto generado por un algoritmo. Y esto debe ser igualmente válido para las voces sintéticas. Si no tenemos trazabilidad hacia el autor y, por tanto, propietario de los derechos sobre su voz, no debe permitirse el uso de la misma.
A continuación os mostramos un ejemplo de esto que decimos. Una pequeña prueba realizada con todos los acuerdos con el narrador, Martín Quirós, por el que se muestra un trozo de una de sus narraciones con su voz natural y otro con su voz sintetizada. En ello podemos ver la notoria perfección que se va logrando ya con el adiestramiento de las voces en castellano, a la vez que es un ejemplo de cómo se debe identificar siempre al narrador propietario de la voz.
Y, por último, también se puede acceder a una versión de este artículo narrado por la voz sintética de su autor. Basta con hacer clic en el siguente icono.