Tradurre in tempo reale non è un’operazione semplice, nemmeno per l’IA di Google. Ma il colosso di Mountain View sta lavorano per compiere un ulteriore passo in avanti con Translatotron, una tecnologia che è in grado di convertire direttamente il parlato da una lingua all’altra mantenendo la voce e la cadenza di chi sta parlando.
Translatotron non lavora andando a tradurre il testo e poi restituendo il parlato – operazione che può spesso portare a interpretazioni errate – ma, attraverso la tecnica dell’end-to-end traduce direttamente la voce di un parlante in un’altra lingua. BigG spera che lo sviluppo e l’ottimizzazione di questa tecnologia potrà portare, in un futuro, a utilizzare questo nuovo modello di traduzione diretta.
Secondo quanto riferisce la stessa Google, Translatotron utilizza un modello di network sequence-to-sequence che prende un input vocale, lo elabora come uno spettrogramma (una rappresentazione visiva delle frequenze) e genera un nuovo spettrogramma in una lingua determinata. Il risultato è quello di una traduzione molto più veloce, con meno probabilità di perdere qualche passaggio durante il dialogo.
Il discorso tradotto suona ancora un po’ sintetico e robotico, ma può effettivamente mantenere alcuni elementi tipici della voce di chi sta parlando. Alcuni esempi di traduzione effettuato con la tecnologia di Google, Translatotron sono disponibili sulla pagina GitHub di Google Research.
Non è la prima miglioria che Google introduce nella sua piattaforma per le traduzioni: l’anno scorso il gruppo di Moutain View ha introdotto gli accenti locali e nuove lingue per la traduzione in tempo reale. All’inizio di quest’anno, invece, l’Assistente di Google ha ricevuto la “modalità interprete” per smart display e speaker, disponibile in 26 lingue.