Quando Google ha annunciato con enfasi di aver raggiunto i 6 miliardi
di pagine e documenti indicizzati, qualcuno avrà reagito con stupore di
fronte all’incredibile cifra. La realtà è che quei 6 miliardi rappresentano
solo una piccola porzione delle risorse potenzialmente fruibili su Internet, diciamo
quella ‘visibile’. Accanto ad essa c’è quello che è stato definito
‘deep Web‘ o ‘Web invisibile‘.
Si tratta di una realtà complessa, multiforme. Il Web non è più
da tempo un deposito di pagine HTML. Accanto al classico formato testuale che
ne costituisce la base, hanno trovato spazio risorse di ogni tipo. I principali
motori di ricerca riescono ormai ad indicizzare anche documenti Word o PDF, presentazioni
in Power Point o fogli di Excel, come pure le immagini. Ma si fermano, ad esempio,
di fronte ai contenuti audio e video. Lo stesso accade con molte pagine dinamiche
e, soprattutto, con l’immenso patrimonio di conoscenze contenuto in migliaia di
database sparsi nel mondo. In quest’ultimo caso parliamo di informazioni di valore
spesso straordinario, anche perché curate e organizzate da prestigiose
istituzioni culturali e accademiche. Bene. Tutta questa mole di dati non è
indicizzata. Significa che se cerco un’informazione contenuta in quei database
e mi affido solo a Google o Yahoo, non la trovo.
Quando il problema è emerso, è iniziata un’opera di selezione
di queste risorse nascoste che ha portato alla nascita di siti e servizi come
DirectSearch, The Invisible Web Directory o CompletePlanet. Tutti offrono indici
per soggetto o interfacce di ricerca verso questi database. Per avere un’idea
di ciò di cui parliamo, si può dare un’occhiata a NatureServe Explorer
(una banca dati con informazioni scientifiche dettagliate su oltre 50.000 piante
e animali censite in Canada e Stati Uniti) o a PubMed, che indicizza invece migliaia
di risorse di letteratura medico-scientifica.
La notizia di questi giorni è che al Web invisibile è interessata
Yahoo. Alla ricerca di armi da sfruttare nella guerra a Google, la società
di Sunnyvale ha annunciato l’ambizioso progetto di portare alla luce parti importanti
di questo patrimonio nascosto. Tim Cadogan, che di Yahoo è vice-presidente
per la divisione Ricerca, lo ha detto chiaramente: "We want to get much
much more content". Ecco, dunque, gli accordi già stilati o in
via di perfezionamento con UCLA, Library of Congress, Università del Michigan
e NPR, la radio pubblica americana di cui Yahoo intende indicizzare 17.000 ore
di contenuti audio. Tutto quanto in un contesto che lo stesso Cadogan descrive
come di reciproco interesse: tu mi dai nuovi contenuti, io ti do la visibilità.
Fin qui le note all’insegna del no-profit del programma CAP (Content
Acquisition Program), la strategia con cui Yahoo intende allargare il dominio
di contenuti indicizzati. La parte commerciale (gestita da Overture) è
quella che va sotto il nome Site Match e si basa sul sistema dell’inclusione
a pagamento (paid inclusion) negli indici del motore di ricerca (il servizio non
è ancora disponibile fuori dagli Stai Uniti).
Cadogan garantisce equità e trasparenza, anche se non mancano le prime
voci perplesse sull’operazione. A differenza dei sistemi alla AdWords, infatti,
i risultati relativi ai siti che hanno pagato per l’inclusione non appaiono distinti
dagli altri. Cadogan ha affermato che il ranking di questi siti non sarà
in alcun modo influenzato dall’aver versato un po’ di dollari a Yahoo. In pratica
il cliente sa che pagando non ha nessuna garanzia sul posizionamento finale. Qualcuno
dubita. Di certo c’è che, oltre al costo annuale di sottoscrizione del
servizio, Site Match prevede anche un cost-per-click tra $0,15 e $1 per ogni click
di un utente sul link. Diciamo che Yahoo avrebbe tutto l’interesse a che quel
sito sia ben posizionato.