Google Street View è il servizio che permette agli utenti di esplorare le città in tre dimensioni mediante una visualizzazione a 360 gradi a livello stradale. Per registrare la posizione geografica degli edifici, l’azienda di Mountain View usa anche i numeri civici, sopratutto nei paesi in cui i numeri delle strade non sono disponibili. Per identificare questi numeri, Google utilizza una rete neurale.
Le videocamere installate sulle Google car registrano centinaia di milioni di immagini panoramiche che contengono decine di milioni di numeri civici. La loro ricerca da parte di un essere umano richiederebbe un tempo eccessivo, sebbene si ottenga una percentuale di successo prossima al 100%. Google ha risolto il problema implementando una rete neurale, per l’esattezza una deep convolutional neural network, composta da 11 livelli di neuroni, “addestrata” per riconoscere i numeri nelle immagini.
Per semplificare l’esecuzione del task, gli ingegneri di Mountain View effettuano prima un cropping delle immagini, in modo tale che il numero occupi almeno un terzo della larghezza del frame risultante. Inoltre, assumono che il numero non abbia una lunghezza superiore a cinque cifre, una condizione rispettata in molte parti del mondo. Dopo aver completato l’addestramento con un training set composto da 200.000 numeri (in circa sei giorni), la rete è in grado di identificare il 98% dei numeri civici nel 95% delle immagini. Con questa tecnologia, Google può identificare tutti i numeri civici della Francia in meno di 1 ora.
Lo stesso approccio potrebbe essere utilizzato per risolvere altri problemi, ad esempio quelli relativi alla trascrizione del testo e al riconoscimento vocale.