Il Robots Exclusion Protocol (REP) è fondamentalmente una funzione di web parser che i webmaster possono usare per mantenere parte dei loro siti fuori dalla vista del motore di ricerca di Google. Adesso, Big G ha deciso di rendere il protocollo uno standard, svelando dunque come effettua le procedure di scansione della rete.
Usando il REP per scrivere righe di comando nel file robots.txt, sviluppatori e gestori dei portali informano sia il Google Search Googlebot che gli altri crawler automatici di quali parti dei website evitare di esaminare, mantenendo così alcuni contenuti privati ed evitando qualsiasi indicizzazione non necessaria. Per circa 25 anni, il REP è diventato un must nel lavoro di creazione di internet anche se mai ufficialmente.
Nessuno standard ufficiale vuol dire nessuna linea guida ufficiale su come utilizzare REP, il che ha portato a problemi di interpretazione del formato robots.txt in diversi modi, creando quindi anche difficoltà nel mettere assieme i risultati pertinenti di una ricerca.
Aprendo il parser robots.txt alla community open source, Google spera di dare agli sviluppatori la possibilità di dare maggiore compattezza alle loro librerie C++, usate da Googlebot per l’analisi e la corrispondenza delle regole nei file robots.txt. Essenzialmente, questo dovrebbe aprire la strada ad una migliore comprensione di come i crawler interagiscono con i file robots.txt e ottimizzare le modalità di sviluppo online.
Google ha pubblicato una bozza di proposta in cui spiega perché REP dovrebbe divenire uno standard, che presenterà alla Internet Engineering Task Force (IETF) nei prossimi giorni. Non c’è alcuna garanzia che l’open source porterà a migliorare la situazione ma è un tentativo. Per l’utente web medio, il tutto dovrebbe tradursi in contenuti migliori e più accurati durante la ricerca mentre, nel prossimo futuro, la search engine di Google potrebbe oscurare, in autonomia, siti con file robots.txt non corrispondenti allo standard, ma ci vorrà del tempo.