Microsoft Research ha partecipato a un evento che ha appena avuto luogo a Tianjin (Cina), dove ha mostrato i progressi compiuti nella tecnologia di traduzione vocale. L’intervento è stato catturato in video grazie al quale è possibile notare come il team abbia lavorato per rivoluzionare il modo in cui un sistema comprende le parole espresse vocalmente in una lingua per tradurle istantaneamente in una lingua differente di destinazione, usando peraltro proprio la voce dell’utente medesimo.
Per vedere la nuova tecnologia in azione è sufficiente andare agli ultimi minuti della presentazione:
[nggvideo id=55362]
Negli ultimi 60 anni informatici di tutto il mondo hanno lavorato per costruire tecnologie in grado di comprendere ciò che una persona dice quando parla. L’approccio utilizzato inizialmente era piuttosto debole, anche perché la voce di ogni persona è differente dalle altre e anche il modo in cui si pronuncia una parola può variare da persona a persona. Alla fine degli anni ’70 un gruppo di ricercatori della Carnegie Mellon University ha compiuto un significativo passo in avanti nel riconoscimento vocale utilizzando una tecnica chiamata Markov, e ancora oggi molti prodotti disponibili sul mercato – tra cui Kinect, della stessa Microsoft – utilizzano proprio tale metodo per consentire agli utenti di navigare attraverso l’interfaccia e/o per fornire risposte semplici.
Fino a pochissimo tempo fa, anche i migliori sistemi di traduzione vocale avevano comunque un margine di errore del 25% circa. Microsoft Research, in collaborazione con l’Università di Toronto, ha lavorato a una nuova tecnica denominata Deep Neural Networks, che secondo l’azienda rappresenta un enorme passo in avanti fatto in tale settore. I risultati ottenuti in questa fase di sperimentazione sono più che buoni: se prima infatti, in media, una parola su quattro tra quelle riconosciute e tradotte era errata, adesso Redmond rileva che con la propria tecnologia il tasso di errore è sceso a una parola su sette o otto.
Durante la presentazione Microsoft viene mostrato come tale tecnologia sia in grado di riconoscere in maniera pressoché perfetta il discorso effettuato dal ricercatore, di tradurlo istantaneamente dall’inglese al cinese e di farlo ascoltare a terzi in un’ottimo mandarino. Due sono le fasi: la prima “prende” le parole pronunciate dalla persona e trova gli equivalenti cinesi – e questa è la parte più semplice – mentre la seconda riordina le parole in modo appropriato e fornisce una traduzione quanto più corretta possibile, usando peraltro la stessa voce con un effetto che scatena l’immediato e ripetuto applauso del pubblico.
Microsoft Research sottolinea come ancora i risultati non siano del tutto perfetti e come vi sia ancora molto lavoro da svolgere, ma la tecnologia sembra essere molto promettente e Redmond si augura che, tra pochi anni, si sarà in grado di abbattere completamente le barriere linguistiche rimuovendo ogni ostacolo alla comprensione reciproca di due persone che parlano idiomi del tutto diversi e che, in altro modo e senza conoscere entrambe le lingue, non potrebbero mai capirsi.