Per un essere umano è facile prevedere cosa succederà nell’immediato, osservando ad esempio il movimento di un oggetto. Per una macchina è impossibile, ma gli scienziati del MIT hanno sviluppato un algoritmo di deep learning che consente di creare un “video del futuro” a partire da immagini statiche di una scena. Una simile intelligenza artificiale potrebbe essere utilizzata per le videocamere di sicurezza oppure nelle auto a guida autonoma.
Il sistema progettato dal Computer Science and Artificial Intelligence Laboratory (CSAIL) ha richiesto un lungo addestramento con 2 milioni di video. Invece di creare scene frame-by-frame, l’algoritmo genera 32 frame in un secondo, separando lo sfondo dall’oggetto in primo piano. Il modello riesce così a distinguere quali oggetti sono fermi e quali in movimento. I ricercatori hanno utilizzato una tecnica denominata “adversarial learning” che prevede il training di due reti neurali, una che genera il video e l’altra che verifica se il video è reale o simulato.
Si ottiene il risultato finale, ovvero il video del futuro, quando la prima rete neurale riesce ad ingannare la seconda, che considera reale il video simulato. Il sistema può quindi prevedere onde che si infrangono sulla spiaggia o persone che camminano sull’erba. I video generati sono stati considerati reali anche dalle persone che hanno partecipato ai test.
Il sistema non è ancora perfetto. Ci sono infatti alcuni limiti, come la durata massima del video (1,5 secondi), ma il team del MIT spera di incrementare la lunghezza in futuro. Una simile intelligenza artificiale può essere sfruttata in diversi modi. È possibile, ad esempio, aggiungere animazioni alle immagini statiche, ottenendo un effetto come quello della Gazzetta del Profeta nei film di Harry Potter. Una self-driving car può invece prevedere il movimento di altre automobili, ciclisti e pedoni.