Se già oggi possiamo disporre di software e algoritmi in grado di interpretare in modo efficiente i comandi vocali, perché non applicare lo stesso approccio alla lettura del labiale? È la domanda che si è posto un team della University of Oxford, arrivando alla creazione di un software chiamato LipNet, in grado di effettuare il riconoscimento di quanto pronunciato da una persona in modo estremamente preciso, senza fare affidamento sul flusso audio di quanto pronunciato.
Alla base di tutto, neanche a dirlo, un avanzato approccio che si fonda su intelligenza artificiale e deep learning. Il sistema è stato istruito con una mole significativa di informazioni, tanto da trovare correlazioni (pattern) tra le parole pronunciate dagli speaker e il movimento delle labbra, arrivando così a imparare da sé ad effettuare l’operazione. I test hanno dimostrato un grado di accuratezza che arriva al 93,4%, di gran lunga superiore rispetto al 52,3% ottenuto da persone con esperienza in questo tipo di procedimento (senza allenamento si intuisce mediamente solo una parola su dieci).
La trascrizione avviene pressoché in tempo reale, basandosi esclusivamente sulle immagini catturate da una videocamera, senza far affidamento al microfono. Il dataset impiegato per istruire LipNet si chiama GRID ed è composto da decine di migliaia di frasi pronunciate da un totale di 34 volontari, tutte della durata di tre secondi e senza alcun senso compiuto, ma con una struttura ben precisa: comando, colore, preposizione, lettera, cifra, avverbio. Un paio di esempio, ovviamente in inglese: “set blue by A four please” e “place red at C zero again”.
Yannis Assael e Brendan Shillingford, i due responsabili del progetto, rassicurano i più attenti al tema privacy affermando che la ricerca non ha alcuna finalità d’impiego nell’ambito della sorveglianza, per un motivo molto semplice: la lettura del labiale richiede per forza di cose la visione dei movimenti della lingua, oltre che delle labbra, dunque il video dev’essere acquisito in condizioni di luce ottimali e da una distanza ridotta. Piuttosto, una tecnologia di questo tipo potrebbe un giorno essere impiegata per semplificare la comunicazione con i soggetti affetti da forme parziali o totali di mutismo.