Google annuncia il servizio Cloud Text-to-Speech

Il servizio Cloud Text-to-Speech, che utilizza le reti neurali per convertire il testo in voce, può essere utilizzato dagli sviluppatori nelle loro app.
Google annuncia il servizio Cloud Text-to-Speech
Il servizio Cloud Text-to-Speech, che utilizza le reti neurali per convertire il testo in voce, può essere utilizzato dagli sviluppatori nelle loro app.

Molti prodotti di Google, tra cui l’assistente personale disponibile su smartphone, sfruttano la sintesi vocale per generare una voce naturale. Dato che gli sviluppatori hanno chiesto di integrare la tecnologia nelle loro applicazioni, l’azienda di Mountain View ha deciso di rilasciare il servizio Cloud Text-to-Speech attraverso la Google Cloud Platform.

Cloud Text-to-Speech può essere utilizzato in vari modi, ad esempio per i sistemi di risposta automatici dei call center (IVR), in modo da offrire una conversazione in linguaggio naturale e in tempo reale. Il servizio può essere inoltre sfruttato per dare voce ai dispositivi IoT (TV, automobili o robot) e per convertire articoli o libri in podcast o audiobook. Gli utenti possono scegliere tra 32 voci in 12 lingue differenti (altre verranno aggiunte in seguito). Cloud Text-to-Speech pronuncia correttamente testo complesso, come nomi, date, orari e indirizzi.

È possibile modificare tonalità, velocità e volume della voce, e generare l’output in vari formati audio, tra cui MP3, WAV e Opus. Il costo delle voci standard (dopo i primi 4 milioni di caratteri) è 4 dollari per ogni milione di caratteri. Chi cerca una maggiore qualità può scegliere le voci WaveNet generate dall’intelligenza artificiale sviluppata da DeepMind, una divisione di Alphabet. In questo caso il prezzo sale a 16 dollari per milione di caratteri, dopo il primo milione gratuito.

WaveNet è il nome della rete neurale addestrata con un enorme numero di campioni in modo da ottenere forme d’onda vocali praticamente indistinguibili da quelle umane. La nuova versione di WaveNet, basata sull’infrastruttura Cloud TPU, offre una velocità 1.000 volte superiore rispetto al modello originario e genera forme d’onda con 24.000 campioni al secondo. La qualità audio è stata inoltre aumentata portando la risoluzione di ogni campione a 16 bit.

Le voci generate dall’intelligenza artificiale sono molto simili a quelle umane e il 20% migliori di quelle ottenute con altri sistemi. La qualità verrà ulteriormente incrementata nel corso dei prossimi mesi. Tra le prime aziende che usano Cloud Text-to-Speech ci sono Cisco e Dolphin ONE.

Ti consigliamo anche

Link copiato negli appunti