Il riconoscimento vocale è una funzionalità di sicuro impatto sociale, utilizzabile in ambiti diversi. Adesso, Google ha sviluppato una tecnologia capace di raggiungere una precisione del 92%, percentuale altissima considerando quanto sia difficile distinguere voci diverse in presenza di più persone. Molto interessante il fatto che gli algoritmi alla base di questa tecnica accurata siano stati resi disponibili pubblicamente su GitHub, così da poter essere utilizzati anche da terzi.
La tecnica di “speaking diarization” di Google ha grandissime potenzialità: potrebbe essere sfruttata nel settore medico, per seguire una conversazione tra medici diversi, oppure in quello automobilistico, dove il possessore di una macchina potrebbe farsi riconoscere per applicare con la voce varie funzionalità, quali l’accensione/spegnimento del climatizzatore, l’inclinazione dei sedili, eccetera. Una tecnologia che si fonda su un processo di annotazione di un input audio da parte dell’intelligenza artificiale, che associa a ogni segnale identità dell’emittente. Google, ovviamente, sta lavorando per migliorare il sistema e far sì che in futuro la percentuale di errori diminuisca ulteriormente, sebbene sia già minima.
Nel frattempo, il colosso di Mountain View ha aggiunto una feature nella sua tastiera per dispositivi mobile, Gboard, in grado di consigliare emoji, gif e adesivi sulla base della conversazione in atto. In questo modo il processo di selezione delle immagini è reso ancora più rapido, sebbene al momento si tratti di una funzionalità disponibile soltanto in inglese (prossimamente potrà essere sfruttata anche in Italia). Inoltre, BigG ha deciso di allargarsi, investendo nella ristrutturazione di un grande edificio per una sede a New York, dove potrebbe creare ben 12mila posti di lavoro. Sulla scia di Google, anche Amazon ha intenzione di espandersi nella Grande Mela.