Google mira alle profondità del Web

Non sono solamente le profondità oceaniche nel mirino di Google. Il famoso motore di ricerca è infatti impegnato nello sviluppo di nuove soluzioni tecnologiche tese a esplorare il “Deep Web“, quella porzione profonda di Internet a oggi invisibile ai sistemi per le ricerche online. Un obiettivo ambizioso, cui lavorano ormai da tempo diversi atenei e società, determinati a rendere più efficaci le procedure di catalogazione dei contenuti online.

Al momento, infatti, i programmi cui è affidato il compito di scandagliare la Rete, i crawler, traggono la maggior parte delle informazioni seguendo i percorsi creati dai link tra le diverse pagine presenti online. Questa procedura si rivela molto efficace per catalogare la parte più superficiale del Web, mentre si rivela poco adatta per penetrare le strutture più profonde della Rete come i database che soggiaciono all’organizzazione dei siti. I motori di ricerca sono così in grado di vedere la punta dell’iceberg, ma non riescono a catalogare con altrettanta efficacia le informazioni nascoste al di sotto del pelo dell’acqua.

Per scalfire la superficie e raggiungere le strutture più profonde, come i database, occorrono dunque crawler differenti e maggiormente specializzati nella lettura di contenuti assemblati e aggregati sul momento e non sempre presenti tra le pagine della Rete. Indagare questo genere di contenuti non è però semplice poiché occorre che il motore di ricerca agisca sui database, formulando specifiche richieste per scoprire e catalogare correttamente i contenuti delle basi di dati.

Alcuni motori di ricerca sperimentali concepiti per interagire con i database esistono già, ma non sono ancora in grado di svolgere un corretto e affidabile lavoro di catalogazione. Come sottolinea Alex Wright in un recente articolo del New York Times, uno degli esempi più promettenti sembra essere al momento il motore di ricerca Kosmix. All’interno della startup che si occupa del progetto figurano, inoltre, alcuni protagonisti di spicco del Web come Jeffrey P. Bezos, noto per essere il CEO del servizio di shopping online Amazon.com. I risultati forniti da Kosmix sono ancora parziali e poco accurati, ma forniscono un buon esempio di ciò che potrà essere un giorno la ricerca nelle profondità del Web.

Tra i soggetti maggiormente interessati alle nuove opportunità legate al “Deep Web” figura, naturalmente, il gigante delle ricerche online Google. La società di Mountain View ha affidato ad Alon Halevy, già docente di scienze informatiche presso la University of Washington, lo sviluppo di nuove soluzioni per creare crawler in grado di interrogare e catalogare correttamente i database. La strategia seguita dal progetto di Google si basa principalmente su soluzioni software in grado di consultare i database man mano che essi vengono identificati in Rete.

Se, per esempio, il crawler identifica un form in una pagina web catalogata tra i siti che si occupano di arte, il sistema provvede a inviare query a quel form utilizzando parole chiave legate ai temi artistici. Quando viene trovata una serie di corrispondenze, il crawler compie una previsione sui contenuti complessivi del database e lo indicizza. Il sistema predittivo allo studio di Halevy e i suoi ricercatori richiede, naturalmente, grandi capacità di calcolo e dunque potenzialmente potrebbe essere eseguito in tempi ragionevoli solamente da una società in possesso di grandi tecnologie per la catalogazione dei contenuti online. Un profilo che sembra adattarsi perfettamente a Google.

Riuscire a indicizzare correttamente i database potrebbe però non essere sufficiente per migliorare la qualità delle ricerche in Rete. I formati dei dati restituiti agli utenti sarebbero molto più numerosi rispetto agli attuali e tali da rendere necessaria una riorganizzazione delle pagine dei risultati, organizzate in modo tale da offrire chiare distinzioni tra le tipologie di informazioni raccolte attraverso la ricerca della query inserita dall’utente. Una sfida non indifferente, specialmente per un modello ormai consolidato come le attuali pagine dei risultati fornite dai principali motori di ricerca.

L’esplorazione del “Deep Web” apre dunque scenari ancora non del tutto immaginabili sia per gli sviluppatori che per gli utenti. La strada del Web profondo potrebbe inoltre intrecciarsi con quella del Web semantico, una soluzione di cui si parla da tempo ma che stenta ancora ad affermarsi a causa dell’oggettiva difficoltà legata alla gestione di parole chiave e nuovi metalinguaggi. Tra tanti dubbi e interrogativi qualcosa sembra essere comunque certo: l’accesso alle profondità della Rete potrebbe modificare radicalmente il nostro modo di concepire e utilizzare Internet.