Nel mese di aprile abbiamo parlato su queste pagine di una tecnologia sviluppata da Google in grado di distinguere quanto detto in un video da due persone che parlano in contemporanea, attraverso l’analisi del labiale. Oggi il gruppo di Mountain View porta il progetto a uno step successivo, evolvendo il sistema e depositandone la proprietà intellettuale presso la World Intellectual Property Organization.
La tecnologia descritta nel brevetto (purtroppo al momento non è disponibile una demo) è in grado di associare le voci ai volti, sfruttando l’impiego di algoritmi di machine vision e un approccio tipico del machine learning. La prima operazione eseguita è la ricerca dei diversi volti presenti all’interno di un filmato, dopodiché ogni viso viene controllato per identificare quando la persona corrispondente pronuncia qualcosa. L’IA cerca poi un punto della clip in cui il soggetto parla mentre gli altri stanno in silenzio e ne analizza l’audio per generare un profilo sonoro univoco che sarà poi associato alla sua identità. Viene così creato una sorta di “hard match” e il sistema sarà successivamente in grado di comprendere le parole emesse da quella persona anche quando più speaker intervengono simultaneamente.
I potenziali impieghi della tecnologia sono molti: dalla creazione automatica dei sottotitoli da associare ai video (su YouTube o piattaforme di questo tipo) all’autenticazione degli utenti in modo più sicuro rispetto a quanto oggi avviene in territorio mobile con i tradizionali metodi di riconoscimento facciale. Potrebbe tornare utile anche durante la registrazione di un filmato, con uno smartphone oppure una videocamera: si immagini la possibilità di isolare solo ed esclusivamente la voce dello speaker durante un evento o in ambienti rumorosi, senza dover ricorrere all’utilizzo di attrezzature specifiche o di microfoni costosi.