Lo stesso team già al lavoro sul sistema AlphaGo annuncia la creazione di una tecnologia in grado di simulare la voce di un essere umano. Un’intelligenza artificiale che sostanzialmente funge da sintetizzatore vocale e, basandosi sulle reti neurali, è in grado di creare suoni con una forma d’onda tanto articolata da risultare indistinguibili da quelli pronunciati da una persona in carne ed ossa.
Si chiama WaveNet ed è il nuovo progetto messo in campo da DeepMind, divisione di Alphabet (Google) specializzata in tutto ciò che riguarda l’IA. Gli attuali sistemi di questo tipo funzionano in due modi: o componenti frasi assemblando parole preventivamente registrate da un essere umano oppure sfruttando un software che genera un audio output basandosi su regole grammaticali e sintassi. In ogni caso, il risultato non è mai del tutto convincente e spesso si ha l’impressione di avere a che fare con una voce robotica. Si pensi ad esempio a quelle che annunciano i treni in arrivo in una stazione ferroviaria.
WaveNet funziona in maniera simile al primo metodo descritto, ma anziché mettere in fila brevissimi spezzoni audio preregistrati, cerca di imitare il comportamento di chi parla. Per rendere il tutto ancora più realistico e verosimile, il segnale audio generato può contenere accenti, interruzioni, respiri e persino assumere un tono piuttosto che un altro per far trapelare un’emozione. Nel caso in cui sia abbinato un video, l’IA è in grado di gestire il labiale.
Una tecnologia di questo tipo, un giorno, potrebbe essere impiegata all’interno dei prodotti e dei servizi a marchio Google, ad esempio per l’assistente Now o per quello virtuale integrato nel dispositivo Home per la casa, favorendo un’interazione vocale naturale. Lo stesso sistema, inoltre, è anche in grado di generare brani musicali simulando un musicista al pianoforte, sfruttando la stessa dinamica.
Una singola WaveNet può catturare le caratteristiche di molti diversi speaker mantenendone la fedeltà originale e scegliendo quella più adatta in base all’identità di chi parla.