Si chiama cocktail party effect ed è l’abilità del cervello umano di concentrarsi su quanto pronunciato da una persona all’interno di un gruppo di interlocutori oppure in una situazione caotica in cui c’è parecchio rumore ambientale. In questo modo siamo in grado di ascoltare chi ci sta parlando, riducendo al minimo interferenze e distrazioni, basandoci anche sull’analisi visiva del movimento del labiale. Lo stesso comportamento è replicato da un sistema di intelligenza artificiale.
A svelare il progetto è Google, con un post condiviso sul blog dedicato alla ricerca. Si tratta di una tecnologia che getta le propria basi sulle potenzialità del machine learning e sulle reti neurali. Il funzionamento è estremamente complesso, ma in estrema sintesi si può affermare che partendo da un video in cui vi sono più soggetti che parlano e un’unica traccia audio è in grado di isolare quanto detto da ognuno di loro, anche in tempo reale. Per meglio capire di cosa si sta parlando è possible fare riferimento al filmato in streaming di seguito che mostra alcuni dei potenziali ambiti di utilizzo.
Non è difficile immaginare un impiego della tecnologia per migliorare le qualità delle videochiamate oppure nei sistemi di sorveglianza. Emergeranno senz’altro giustificati dubbi e timori legittimi per quanto riguarda la tutela della privacy, poiché potenzialmente sarà possibile comprendere quanto pronunciato da tutte le persone riprese all’interno di un’unica inquadratura. Al momento si tratta comunque di un’iniziativa sperimentale e dal gruppo di Mountain View non sono trapelati dettagli sull’intenzione di integrarne le capacità in software o applicazioni del gruppo. Va dunque inteso come un esercizio di stile, l’ennesimo utile per capire quanto promettente (e talvolta con qualche risvolto preoccupante) sia il progresso nel campo dell’IA.