Hablemos de lo que es Translatotron: Desde hace algún tiempo un sector de los colegas traductores e intérpretes profesionales ha temido que tarde o temprano las máquinas los sustituyan. Si bien es cierto que las tecnologías avanzan en todos los ámbitos, todavía hay optimistas que pensamos que el ser humano tiene características que no pueden ser sustituidas por la máquina en la actividad traductora, al menos no todavía.
Recientemente, durante una exposición observé a dos personas interactuar a través de un teléfono inteligente: una participante mexicana interactuaba con una expositora asiática y cada una hablaba a un teléfono inteligente y luego escuchaba la respuesta en el mismo teléfono, de manera que pudieron comunicarse oralmente sin hablar la misma lengua y sin un intérprete humano. Estoy seguro de que cada día veremos más personas interactuando de esta manera.
Yendo un paso más allá…
Recientemente leí un artículo en el periódico El País titulado “Google desarrolla un traductor simultáneo que imita la voz” donde se habla del sistema denominado Translatotron, que Google denomina como “un sistema de traducción casi simultánea capaz de imitar la voz del emisor” con el fin de transmitir la cadencia y la intención de la conversación, uno de los atributos fundamentales de intérprete profesional.
Creo que antes de proseguir hay que hacer una distinción entre las herramientas que tenemos los intérpretes para prepararnos, colaborar y mejorar nuestro desempeño, y las herramientas que, como Translatotron, buscan sustituir al intérprete en un futuro. Por ende, aquellos que se pregunten qué tiene que ver la Inteligencia Artificial (IA) con el mundo de la interpretación pueden encontrar un ejemplo en Translatotron, porque no cabe duda que con las interacciones comerciales y con la globalización, eliminar las fronteras de la lengua sigue siendo uno de los aspectos que agilizan los intercambios de todo tipo, y las esperanzas de muchos están en aplicaciones y herramientas como la que nos ocupa hoy.
De acuerdo con Google AI Blog, en las últimas décadas se ha trabajado en sistemas para facilitar la comunicación entre personas que no hablan la misma lengua a través de:
- Automatic speech recongnition para transcribir un mensaje oral en texto
- Machine translation para traducir un texto transcrito a otra lengua y
- Texto-to-speech synthesis (TTS) para generar voz en la lengua meta a partir de un texto escrito.
Entonces, ¿cuál es el reto?
Tratar de llevar el esfuerzo un paso más allá con el speech-to-speech, es decir, el auténtico avance es que no es necesario pasar por el texto en ningún momento, y ahí es donde entra Translatotron al que yo denomino el “intérprete Google”. Si usted entra a la cita del blog de Google que incluyo más adelante encontrará algunos ejemplos donde se escucha la voz del emisor y la del sistema (o intérprete, digamos).
Tal vez lo más notable de Translatotron es, precisamente, la voz porque en los ejemplos que ahí vi hay uno en que la voz y la “intención” en la voz se parecen; es decir, a través de Translatotron, Google, no sólo se enfoca en transmitir un mensaje sino intenta imitar la voz de quien habla y su intención (emisor) a través de la voz de la herramienta (intérprete).
De acuerdo con el periódico El Clarín “el sistema de Google utiliza como fuente espectogramas con la señal de voz captada y genera otros de línea de voz en el idioma elegido para la traducción”, o sea toma la voz y la convierte en un “espectograma resultante de ondas de audio con referencias de tiempo”, es una manera muy IA para describir lo que hacemos los intérpretes desde tiempos ancestrales, a saber: escuchar la voz en una lengua y generar voz en otra lengua después de un complejo procesamiento cerebral. El Clarín agrega, “además, puede añadirse un mecanismo adicional que aprende características del habla de una persona y las codifica para lograr mantener el tono de voz, para usarlo posteriormente en la sintetización de la traducción de voz”, cosa que los intérpretes hacemos habitualmente también a través de una característica humana única no artificial, llamada empatía, porque los intérpretes somos capaces de transmitir la emoción, la intención de nuestro emisor.
¿Éxito o Fracaso?
Si bien al parecer este sistema promete, en el artículo de El País, María Galán, presidente de la Asociación Española de Traductores, Correctores e Intérpretes (Asetrad), “duda mucho que esta funcionalidad sirva para algo más que para salir del paso en conversaciones cotidianas, con frases cortas y sin modismos”. Esta observación es, quizás, una de las más recurrentes entre los profesionales de la interpretación- y yo coincido con lo que vi (o escuché) por ahora-, que es que las interacciones han de ser breves y de cuestiones generales, y es que hay todavía un sinfín de atributos más que tiene un intérprete profesional, entre otras, como reflexiona Galán, las palabras polisémicas (palabras con distintos significados), los dobles sentidos y las alteraciones gramaticales del discurso que todavía están fuera del alcance de esas herramientas, además de la confidencialidad, la exactitud y la responsabilidad (que son atributos todavía esencialmente humanos).
De hecho, los ejemplos que se encuentran en el blog de Google son cortos. Resultaría interesante más adelante escuchar elocuciones más largas, más complejas, con modismos o metáforas, o, quizás, con citas de algún poema, con diferentes tonalidades como las que encontramos los intérpretes en nuestra práctica profesional cotidiana. Lo anterior puesto que la conclusión del blog de Google AI es “We hope that this work can serve as a starting point for future research on end-to-end speech-to-speech translation systems” (Esperamos que este trabajo sea un punto de inicio para futuras investigaciones sobre sistemas de traducción “speech-to-speech”), es decir, este intérprete Google está todavía en ciernes y es considerado apenas un punto de inicio.
Para finalizar…
Por ahora, al leer y aprender sobre las maravillas que la tecnología puede hacer por nosotros los intérpretes, lo que yo considero realmente importante es que es necesario “levantar la antena” para saber no sólo lo que ocurre en el mercado y en los laboratorios de los gigantes tecnológicos, sino para identificar dónde está nuestro auténtico valor como intérpretes profesionales. Yo sigo pensando que ese valor dista mucho de estar en “las palabras”, más bien radica en el toque humano y profesional de la interpretación.
Sin lugar a dudas debemos entender que nuestra diferencia está en el servicio y trato humanos, en la mística y ética de trabajo como intérpretes, en la riqueza de nuestro vocabulario y modalidades de trabajo, sin dejar de ver lo que ocurre en las tecnologías, porque más temprano que tarde esas tecnologías enriquecerán nuestro trabajo y deberemos aprender a convivir con ellas.
Lo que es innegable es que además de competir con otros intérpretes de carne y hueso más temprano que tarde lo haremos con opciones como Translatotron y lo con que pueda venir en el ámbito de las herramientas de interpretación.
Fuentes: https://elpais.com/tecnologia/2019/05/16/actualidad/1558002965_023509.html
https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html