Un nuovo modello analitico in grado di confrontare più immagini ambientali per confrontarle, identificarne il soggetto e formare connessioni tra contenuti analoghi. Trattasi di una nuova ricerca made in Google, presentata alla Computer Vision and Pattern Recognition (CVPR) conference di Miami, la cui finalità è quella di organizzare le immagini disponibili sul Web fornendo così un nuovo schema di indicizzazione che è in grado di fare a meno dell’interazione umana (tanto nel nome dei file, quanto nei contenuti inerenti, quanto ancora nella folksonomy dei tag e delle descrizioni).
«Per essere chiari, trattasi di una ricerca, non di un nuovo prodotto Google, ma pensiamo che sia già “cool”». Trattasi infatti al momento di una semplice dimostrazione, di un algoritmo in grado di fornire risultati affidabili nel 90% dei casi, ma comunque di un progetto che rimane in fase larvale e per il quale non vi sono roadmap precise (né business plan specifici) per l’approdo sul mercato. La dimostrazione si basa su tutta una serie di immagini dell’Acropoli greca di Atene: le immagini vengono elaborate, se ne eliminano quelle basate sulla persona per conservare quelle semplicemente basate sull’oggetto specifico, e si viene a creare quindi un pattern con il quale si andranno a confrontare tutte le altre immagini trovate online. Senza che ve ne sia una indicazione specifica, pertanto, diventa possibile riconoscere l’Acropoli all’interno di una grande quantità di file, estrapolando così un ordine fondamentale all’interno di un insieme disordinato e non omogeneo.
Le firme sul documento di ricerca («Tour the World: building a web-scale landmark recognition engine») sono quelle di Yan-Tao Zheng, Ming Zhao, Yang Song, Hartwig Adam, Ulrich Buddemeier, Alessandro Bissacco, Fernando Brucher, Tat-Seng Chua ed Hartmut Neven. La ricerca è stata compiuta grazie agli immensi database provenienti da Picasa, Panoramio e da una serie di guide turistiche quali Wikitravel. La divisione è stata compiuta anzitutto tra immagini geotaggate ed immagini prive di meta-informazioni. A questo punto si è proceduto con altri sistemi, formando vari cluster per ogni singolo monumento individuato così da avere svariate versioni (prospettiva, illuminazione) per ogni singolo elemento del database. Il successo dei confronti successivi è strettamente dipendente dalla bontà del lavoro in questa prima fase.
Nella ricerca si sottolinea quanto sia difficile per la mente umana il riconoscimento di un ambiente in assenza di riferimenti chiari e specifici, il che a maggior ragione conferma la difficoltà dell’operazione per un processo automatico basato sul computing. Per questo motivo la ricerca parte da una immensa raccolta di dati grezzi, procedendo quindi per approssimazioni successive con l’obiettivo della riduzione del “rumore” sistematico e con l’identificazione di modelli affidabili. A questo punto il confronto delle immagini potrà riconsegnare risultanze affidabili mettendo in relazione il database creato con l’immensa quantità delle immagini che popolano il web e che ogni giorno giungono in rete provenienti dalle fonti più variegate.
La ricerca non descrive forse un applicativo già formato, ma il passo potrebbe essere breve. La ricerca si inserisce infatti facilmente nella mission aziendale di Google che punta all’organizzazione di ogni tipo di informazione, il che potrebbe pertanto scaturire in un migliore Google Image Search, in una arricchita offerta mappale, in nuovi servizi per il mobile ed altro ancora.