L’idea è geniale, e Google l’ha fatta propria. Per una somma non meglio precisata, il gruppo ha infatti acquisito il gruppo ReCaptcha, piccola start-up che da tempo porta avanti una semplice idea in grado di coniugare l’esigenza di bloccare i bot dello spam con la necessità di offrire un aiuto umano al lavoro degli OCR che trasformano i libri stampati in bit. Su Webnews se ne parlò già il 25 maggio del 2007, quando ancora la digitalizzazione dei libri era agli albori: ReCaptcha faceva capolino online attirando molte attenzioni, fino a giungere a due anni di distanza alla cessione dell’idea per farla fiorire sui server di Mountain View.
Il Captcha è un sistema noto, utile a certificare il fatto che l’accesso ad un sito sia stato compiuto da una persona fisica piuttosto che da un bot. Questi ultimi, infatti, tentano di accedere a sistemi quali Gmail per offrire a malintenzionati uno strumento utile all’invio di grosse quantità di spam. I sistemi Captcha, però, sono dovuti cambiare nel tempo poiché le tecniche di violazione si son fatte sempre più raffinate ed il gioco a “guardia e ladri” si sussegue ormai da tempo. Il sistema che meglio sembra funzionare è la proposizione di parole distorte che l’occhio umano è in grado di identificare con facilità, ma che un bot difficilmente riuscirà a riconoscere. ReCaptcha va un passo oltre, proponendo parole non solo distorte, ma parole la cui soluzione può avere anche una successiva utilità.
Ciò che ReCaptcha si propone di fare, infatti, è raccogliere tutti quei lemmi che i software OCR non sono riusciti ad identificare con chiarezza, proponendoli quindi agli utenti e chiedendo loro di identificarli per avere accesso al login del caso. L’aiuto dell’occhio umano è in grado di portare la precisione delle digitalizzazioni al 99.5%, migliorando in modo sostanziale il margine d’errore proprio dei sistemi OCR tradizionali. Con l’acquisto di Google l’orizzonte si fa chiaro: ReCaptcha verrà adottato su alcuni dei servizi del gruppo, portando così sotto gli occhi di milioni di utenti le parole che l’OCR non è riuscito a identificare in fase di scannerizzazione dei libri da portare su Google Books.
«Questa tecnologia potenzierà i progetti di scannerizzazione su larga scala quali Google Books o Google News Archive Search. Avere la versione testuale dei documenti è importante perché il testo permette la ricerca […]. Perciò applicheremo la tecnologia su Google non solo per aumentare la protezione da frodi e spam, ma anche per migliorare i processi di scannerizzazione di libri e giornali». Google spiega che il team ReCaptcha entrerà ad ogni effetto all’interno del team di Mountain View.
ReCaptcha è stato adottato in precedenza anche dal New York Times, aiutando il gruppo a migliorare l’esportazione in bit di 150 anni di archivio cartaceo. Il sistema dei due piccioni con una fava farà ora capolino su Google (ove peraltro è già presente sotto forma di progetto inserito nell’area Google Code), apportando un’utilità sociale alla semplice e ripetitiva operazione che richiede l’attenzione dell’utente ad ogni registrazione online richiedente una verifica anti-bot.