Sembra non conoscere confini la voglia di Google di catalogare l’universo di documenti presenti nel Web. Dopo aver stretto un nuovo importante accordo con gli editori per il suo servizio Book Search, il famoso motore di ricerca ha comunicato in questi giorni l’avvio di un nuovo progetto per scansionare e indicizzare i documenti acquisiti in formato immagine. Un’operazione impegnativa, realizzata attraverso i software per l’Optical Character Recognition (OCR).
La nuova soluzione approntata da Google consentirà una indicizzazione dei milioni di file PDF presenti in Rete e contenenti le riproduzioni delle pagine in formato immagine e non di testo. Il motore di ricerca provvederà a riconoscere e conventire le parole come un comune software OCR, naturalmente su una scala esponenzialmente più ampia, restituendo un maggior numero di parole chiave utili per effettuare le ricerche anche in quei file fino ad ora quasi totalmente invisibili ai crawler di Google. L’operazione di riconoscimento e indicizzazione dei testi è già in corso da alcune settimane, tanto da aver consentito l’inserimento di una prima serie di documenti PDF contenenti pagine in formato immagine tra i risultati del motore di ricerca di Mountain View.
«Mentre indicizziamo i documenti di testo salvati in formato PDF già da tempo, i documenti ottenuti con uno scanner sono un po’ più difficili da leggere per un computer. Scansionare è l’opposto di stampare. La stampa trasforma le parole digitali in testo su un foglio di carta, mentre la scansione crea un’immagine digitale della carta (e del testo) consentendone la visione sul computer. La versione ottenuta con lo scanner del testo non è uguale alle parole digitali originarie, tuttavia è una rappresentazione di quelle parole stampate» scrive Evin Levey sul blog di Google, sottolineando la necessità di dover ritrasformare in parole digitali i testi presenti in Rete sotto forma di immagine.
La nuova soluzione adottata da Mountain View attraverso i software per l’OCR non solo consente di rintracciare un file PDF con testo in formato immagine nel mare magnum della Rete, ma permette anche di visualizzare il documento ricercato in formato testuale attraverso una conversione in HTML come già avviene da alcuni anni per i file PDF. Il livello di riconoscimento delle pagine si rivela particolarmente accurato e preciso [confronto PDF | HTML], specie in quei documenti in cui la qualità delle scansioni è sufficientemente definita per non trarre in errore i software OCR. Il sistema messo a punto da Google al momento non riesce però a riconoscere e isolare grafici e fotografie presenti nelle pagine, che vengono per ora omessi durante la conversione. In prospettiva, con un ulteriore affinamento delle tecnologie per il riconoscimento dei testi, il sistema potrebbe essere applicato anche per indicizzare le parole presenti nelle fotografie, fornendo un nuovo supporto per la gestione delle ricerche delle immagini online.