I team di ricercatori del MIT, Microsoft e Adobe hanno sviluppato un algoritmo che consente la ricostruzione di un segnale audio dalle vibrazioni degli oggetti ripresi in un video. Quella che sembra la descrizione di una scena di un film di spionaggio, in realtà è tutto vero. Gli scienziati hanno dimostrato che è possibile registrare le parole pronunciate da una persona, semplicemente inquadrando una busta di patatine, un bicchiere d’acqua o le foglie di una pianta, anche attraverso vetri insonorizzati.
Quando il suono colpisce un oggetto, quest’ultimo comincia a vibrare. I movimenti delle vibrazioni non possono essere osservati ad occhio nudo, ma la ricostruzione audio è possibile con una videocamera ad alta velocità. È necessario infatti che la frequenza dei campioni video – il numero dei fotogrammi catturati al secondo – sia superiore a quella del segnale audio. Per i loro esperimenti, i ricercatori hanno utilizzato una videocamera high-speed che cattura da 2.000 a 6.000 frame al secondo. I modelli migliori possono arrivare a 100.000 fps.
In alcuni test è stata impiegata una normale videocamera digitale che registra video a 60 fps. In questo caso non può essere effettuata una ricostruzione fedele dell’audio, ma è comunque possibile identificare il sesso delle persone in una stanza, il numero delle persone e anche la loro identità, attraverso l’analisi delle proprietà acustiche della loro voce.
La tecnica sviluppata dai ricercatori ha ovvie applicazioni in ambito forense (e in attività di sorveglianza), ma può essere sfruttata anche in altri settori. Dato che ogni oggetto vibra in modo differente quando colpito dal suono, è possibile ottenere dal video informazioni sul tipo di materiale e sulle sue proprietà strutturali. I risultati della ricerca saranno presentati alla conferenza Siggraph, in programma dal 10 al 14 agosto in Canada.