Microsoft ha ottenuto di un importante traguardo nel campo del riconoscimento vocale, creando una tecnologia che riconosce le parole in una conversazione con un livello di precisione simile a quella degli esseri umani. Il sistema sviluppato dal team di ricercatori e ingegneri del gruppo Microsoft Artificial Intelligence and Research ha raggiunto una percentuale di errore del 5,9%, simile a quella di un trascrittore professionale.
Per l’azienda di Redmond si tratta di un risultato storico. Per la prima volta, un computer può comprendere le parole come una persona in carne e ossa. I primi studi relativi alle tecnologie di riconoscimento vocale risalgono all’inizio degli anni ’70, quando la DARPA ha avviato ricerche in questo campo nell’interesse della sicurezza nazionale. Negli anni successivi diverse aziende hanno accettato la sfida e oggi Microsoft ha battuto la concorrenza, realizzando un sistema che verrà utilizzato in numerosi prodotti e servizi, tra cui Xbox e Cortana.
L’importante risultato è stato ottenuto attraverso l’uso massiccio di reti neurali convoluzionali e LSTM (Long short-term memory). Microsoft ha sfruttato il suo Computational Network Toolkit per il deep learning che il team di ricerca ha distribuito pubblicamente su GitHub con licenza open source. La velocità di addestramento delle reti neurali è stata incrementata sfruttando una serie di computer con GPU dedicate.
La “parità umana” non significa però che il sistema riconosce perfettamente ogni parola. I ricercatori dovranno infatti testare la tecnologia in condizioni reali, ovvero in presenza di rumore. L’obiettivo finale è realizzare un sistema in grado di capire le parole pronunciate dalle persone. Microsoft sottolinea tuttavia che la creazione di una vera intelligenza artificiale è ancora molto lontana.