Se utilizzando la ricerca vocale di Google qualcuno dovesse avere l’impressione di un funzionamento migliorato, è così. A parlarne è direttamente il gruppo di Mountain View con un post lungo e approfondito condiviso sulle pagine del blog ufficiale. Tutto merito di un nuovo motore che riconosce le parole con maggiore accuratezza rispetto al passato, basandosi su una rete neurale e avanzati modelli acustici, attraverso l’uso di ciò che viene definito CTC (Connectionist Temporal Classification).
Alcuni membri del team, inclusi Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays e Johan Schalkwyk, spiegano che questi modelli rappresentano una speciale estensione delle reti neurali ricorrenti (RNN) e manifestano tutta la loro efficacia soprattutto negli ambienti con un elevato rumore di fondo. In altre parole, bigG è ora in grado di riconoscere in modo più rapido e preciso quanto pronunciato dall’utente, anche nelle situazioni più caotiche. È inoltre stato reso più breve l’intervallo che trascorre tra l’input vocale e la sua interpretazione.
È la seconda volta, nel corso di quest’anno, che Google annuncia miglioramenti a questa funzionalità. Le RNN impiegate dal gruppo in questo ambito sono paragonabili a quelle sulle quali si basa il funzionamento dei sistemi di intelligenza artificiale riconducibili alle tecnologie di deep learning. Il cambiamento è già operativo su tutti i dispositivi Android e iOS: per metterlo alla prova basta dunque premere il pulsante a forma di microfono dell’assistente Google Now oppure pronunciare “Ok Google” e poi parlare in modo del tutto naturale.
Lo scorso anno Andrew Ng, responsabile del progetto Google Brain, ha previsto che entro la fine del decennio il 50% delle ricerche online verrà effettuato mediante voce o immagini. Considerando la crescente popolarità e affidabilità delle tecnologie per il riconoscimento vocale, la predizione potrebbe rivelarsi effettivamente azzeccata.