Identificare oggetti e persone nelle immagini e aggiungere automaticamente la didascalia. Questo è il risultato ottenuto con la tecnologia di auto photo-captioning sviluppata da Microsoft Research che permette ad un computer di riconoscere ciò che osserva, sfruttando l’intelligenza artificiale. Un simile sistema potrebbe in futuro essere adottato per migliorare le funzionalità di Cortana.
Per molti anni, i ricercatori hanno provato a realizzare sistemi in grado di interpretare e descrivere le foto, ma i risultati ottenuti non sono stati soddisfacenti. Tutto è cambiato quando hanno iniziato ad usare le reti neurali, grazie alle quali la percentuale di errore nel riconoscimento delle immagini si è drasticamente ridotto. La tecnologia di computer vision progettata dall’azienda di Redmond è basata su algoritmi che vengono “addestrati” con un dataset di immagini, denominato Microsoft COCO.
La didascalia dell’immagine viene generata in tre passi. Il primo step prevede l’uso di una rete neurale convoluzionale che identifica gli oggetti e le persone attraverso vari parametri, come forme, colore o peli del viso (per distinguere gli uomini dalle donne). Vengono quindi scritte le parole corrispondenti. A questo punto, il sistema genera frasi combinando le parole e sceglie quella che descrive meglio la foto. Analizzando l’immagine in evidenza, il sistema ha generato la didascalia “Una donna con una fotocamera in mezzo alla folla”.
Questo tipo di ricerca potrebbe essere sfruttata per sviluppare tool avanzati basati sull’intelligenza artificiale, come un sistema in grado di apprendere le abitudini dell’utente, osservare il mondo circostante e offrire il suo aiuto in tempo reale. Insomma, una Cortana all’ennesima potenza.