Google ha rilasciato un motore OCR (Optical Character Recognition) per il mondo open source. La motivazione addotta all’impegno nel settore è semplice: al motore di ricerca interessa tutto ciò che permette di mettere a disposizione dell’utenza materia informativa su cui applicare le proprie query. Facile accostare intuitivamente il tutto a Google Books ed alle potenzialità che l’applicazione OCR restituisce al sistema.
L’OCR specifico si chiama Tesseract ed è stato originariamente sviluppato dagli Hewlett Packard Laboratories tra il 1985 ed il 1995. Dopo anni passati nel dimenticatoio ed una tappa presso l’Information Science Research Institute UNLV, Google ha preso in mano la situazione ed ha redistribuito in forma open source il tutto. Il download è disponibile su Sourceforge.
A dimostrazione del fatto che l’impegno nel progetto non termina con la release odierna, Google inserisce tra i propri annunci anche un riferimento alla ricerca di nuovi esperti in campo OCR da assumere presso il Googleplex di Mountain View.