La tecnologia di sintesi vocale impiegata da Google per offrire servizi come quelli legati al suo assistente virtuale è in costante evoluzione. Oggi il gruppo di Mountain View presenta le ultime novità in merito, racchiuse all’interno di un sistema chiamato Tacotron 2, che basandosi sull’ormai onnipresente intelligenza artificiale modifica il modo di pronunciare le singole parole in relazione al contesto.
I risultati raggiunti, secondo bigG, sono tali da rendere pressoché indistinguibili i file audio generati dalla tecnologia e quelli invece ottenuti registrando la voce di un essere umano. Alcuni esempi sono forniti da Google in un report pubblicato sulle pagine di Quartz. È sufficiente fare click sul lettore allegato di seguito per ascoltare la stessa frase pronunciata da Tacotron 2 e da una persona in carne e ossa. Difficile cogliere la differenza. È dunque questa la nuova frontiera degli assistenti vocali, capaci di interpretare i comandi impartiti a voce dagli utenti e interagire con loro in modo altrettanto naturale.
George Washington was the first President of the United States (a destra il file audio generato da Tacotron 2)
That girl did a video about Star Wars lipstick (a sinistra il file audio generato da Tacotron 2)
Il sistema è in grado anche di gestire intonazione e cadenza sulla base della punteggiatura, ponendo inoltre maggiore enfasi sulle parole scritte in maiuscolo, come dimostrano gli esempi di seguito.
The buses aren’t the problem, they actually provide a solution.
The buses aren’t the PROBLEM, they actually provide a SOLUTION.
Al momento Tacotron 2 è in grado di simulare con questo livello di precisione e accuratezza una voce femminile in inglese. Per ottenere lo stesso risultato con una voce maschile e in altre lingue il sistema dovrà essere istruito con nuove informazioni, in perfetto stile machine learning. Così come la tecnologia WaveNet, potrà in futuro essere impiegato al fine di migliorare l’Assistente Google.