Internet è “grande” più di 11.5 miliardi di pagine. E’ questa la conclusione alla quale è giunto uno studio i cui co-firmatari sono Antonio Gulli dell’Università di Pisa e Alessio Signorini della University of Iowa. La stima, datata Gennaio 2005, non è frutto di una misurazione scientifica quanto piuttosto di una statistica ottenuta dall’incrocio di dati empirici, misurazioni campione ed analisi incrociata dei risultati ottenuti.
Importante, soprattutto, il dato relativo ai motori di ricerca. Secondo quanto rilevato, infatti, Google si conferma il motore in grado di indicizzare il maggior numero di risorse (il campione inteso ottempera tutte le risorse “visibili” sul web). Google copre infatti il 76.16% del web (o almeno del campione statistico al quale l’analisi ha sottoposto il motore), la seconda posizione è per Yahoo!, fermo al 69.32%; seguono MSN Beta con il 61.90% e Ask/Teoma con il 57.62%.
La metodologia analitica applicata da Gulli e Signorini è quella proposta già nel 1997 dai ricercatori Bharat e Broder, opportunamente adattata: nel 1997 le pagine erano solo 200 milioni ed i motori che si spartivano la torta della ricerca web erano i vecchi Hotbot, Altavista, Excite ed Infoseek. Inoltre oggi la Rete è molto più dinamica ed ogni fotografia risulta complicata dalla continua evoluzione a cui il World Wide Web è continuamente sottoposto.
Valutando le pagine indicizzate in tutto dai 4 motori, Google risulta coprire il 68.2% del totale, Yahoo! segue al 59.1%, MSN al 49.2%, Ask/Teoma al 43.5%. L’intersezione di tali risultati suggerisce due spunti: innanzitutto il totale delle pagine indicizzate risulta essere di circa 9.36 miliardi di unità (dunque poco più dell’80% delle pagine statisticamente ipotizzate); inoltre le pagine indicizzate da tutti i quattro principali motori risultano essere 2.7 miliardi, solo il 28.85% del totale.
E’ su questa ultima serie di dati che può probabilmente essere valutata l’affidabilità di un motore, fermo restando che quantità e qualità dell’indice rimangono a sua volta parametri dissociati e solo parzialmente dipendenti l’uno dall’altro. Il caso vuole che la ricerca salga alle cronache nelle ore in cui sia Google che Yahoo! stanno ridefinendo il proprio indice: i primi risultati dell’update sono già avvertibili nella restituzione dei risultati delle ricerche.