Nelle scorse settimane si è parlato del sistema LipNet, progettato dalla University of Oxford e in grado di leggere il labiale con efficacia. Ora DeepMind, il team di Google al lavoro su machine learning e intelligenza artificiale, annuncia la propria collaborazione con l’istituto che ha portato alla nascita di una tecnologia ancora più evoluta: si chiama “Watch, Listen, Attend, and Spell”.
A differenza di LipNet, in questo caso gli algoritmi non prendono in esame frasi composte da poche parole appositamente registrate in precedenza, ma filmati televisivi. Più precisamente, il sistema è stato istruito con migliaia di ore di dibattiti politici prelevati dall’archivio della BBC. L’efficacia arriva al 46,8%, ovvero in quasi la metà dei casi l’IA è in grado di stabilire correttamente quanto pronunciato da una delle persone inquadrate sullo schermo, solo analizzandone il movimento delle labbra, senza basarsi sul segnale audio di quanto pronunciato. La percentuale potrebbe sembrare contenuta, ma basta pensare che i professionisti di questa disciplina sono arrivati nei test solo al 12,4%.
Perché ritenere la tecnologia di DeepMind più avanzata rispetto a LipNet, se quest’ultima era arrivata al 93,4%? Proprio per quanto detto poco fa: sono stati presi in esame dialoghi liberi e non frasi composte da una struttura ben precisa. Inoltre, i video analizzati da “Watch, Listen, Attend, and Spell” sono caratterizzati dall’inquadratura tipica dei talk show televisivi, con i volti degli speaker spesso ripresi da lontano e non da vicino né frontalmente o con un’illuminazione ottimale.
Secondo il team responsabile del progetto, sistemi di questo tipo potrebbero un giorno essere impiegati per facilitare l’interazione vocale con i dispositivi da parte di chi è affetto da totale o parziale mutismo, così come per impartire ordini ad assistenti virtuali semplicemente muovendo le labbra, senza emettere una parola.