WaveNet: l'IA DeepMind parla come un essere umano

Lo stesso team già al lavoro sul sistema AlphaGo annuncia la creazione di una tecnologia in grado di simulare la voce di un essere umano. Un’intelligenza artificiale che sostanzialmente funge da sintetizzatore vocale e, basandosi sulle reti neurali, è in grado di creare suoni con una forma d’onda tanto articolata da risultare indistinguibili da quelli pronunciati da una persona in carne ed ossa.

Si chiama WaveNet ed è il nuovo progetto messo in campo da DeepMind, divisione di Alphabet (Google) specializzata in tutto ciò che riguarda l’IA. Gli attuali sistemi di questo tipo funzionano in due modi: o componenti frasi assemblando parole preventivamente registrate da un essere umano oppure sfruttando un software che genera un audio output basandosi su regole grammaticali e sintassi. In ogni caso, il risultato non è mai del tutto convincente e spesso si ha l’impressione di avere a che fare con una voce robotica. Si pensi ad esempio a quelle che annunciano i treni in arrivo in una stazione ferroviaria.

La forma d’onda del suono che compone le parole pronunciate da una voce umana

WaveNet funziona in maniera simile al primo metodo descritto, ma anziché mettere in fila brevissimi spezzoni audio preregistrati, cerca di imitare il comportamento di chi parla. Per rendere il tutto ancora più realistico e verosimile, il segnale audio generato può contenere accenti, interruzioni, respiri e persino assumere un tono piuttosto che un altro per far trapelare un’emozione. Nel caso in cui sia abbinato un video, l’IA è in grado di gestire il labiale.

Esempio 1;
esempio 2.

Una tecnologia di questo tipo, un giorno, potrebbe essere impiegata all’interno dei prodotti e dei servizi a marchio Google, ad esempio per l’assistente Now o per quello virtuale integrato nel dispositivo Home per la casa, favorendo un’interazione vocale naturale. Lo stesso sistema, inoltre, è anche in grado di generare brani musicali simulando un musicista al pianoforte, sfruttando la stessa dinamica.

Una singola WaveNet può catturare le caratteristiche di molti diversi speaker mantenendone la fedeltà originale e scegliendo quella più adatta in base all’identità di chi parla.

Un’animazione che spiega il funzionamento di WaveNet

WaveNet: l'IA DeepMind parla come un essere umano

Ti consigliamo anche

ChatGPT sfida Google con il nuovo supporto per lo shopping

Google Chrome potrebbe essere venduto: OpenAI interessata all'acquisto

Google Foto: arriva l'editing Ultra HDR per immagini più realistiche

Android introduce la funzione di riavvio automatico per maggiore sicurezza