Talvolta, nel lungo lavoro di ottimizzazione delle pagine Web, potrebbe presentarsi l’esigenza di escludere alcune pagine, file o cartelle dall’indicizzazione dei motori di ricerca, vuoi perché provvisti di contenuti sensibili, vuoi per completare, quando presente, il lavoro del meta tag “robots”.
Per fare questo, si utilizza il file robots.txt, un semplice file di testo editabile con blocco note, da includere nella root principale del sito e contenente alcuni comandi per i motori di ricerca.
A differenza del meta tag “robots” però, il file robots.txt non si limita solo a suggerire quali link o pagine sono da saltare nel processo di indicizzazione ma impone categoricamente agli spider quali oggetti sono da escludere, evitando di fatto l’indicizzazione delle pagine in questione.
Un’altra sua caratteristica interessante è la capacità di specificare quale motore di ricerca avrà il permesso di indicizzare la pagina, diventando in tal modo uno strumento indispensabile per quanti, Webmasters e SEO, conducono un’attività di monitoraggio continuo delle pagine Web.
Ammettiamo di aver creato la pagina articolo.html e che per un motivo X non voglio che Google scansioni la pagina. Allora devo scrivere:
User-agent: googlebot
Disallow: /articolo.html
User-agent specifica per quale spider sono valide le istruzioni della riga seguente, in questo caso della pagina articolo.html. Googlebot è lo spider di Google, ma potevo scrivere anche User-agent: msnbot per MSN, User-agent: slurp per Yahoo, User-agent: /scooter per Altavista e così via.
Se invece di una pagina voglio escludere una cartella allora scriverò Disallow: /nome cartella.
Se scrivessi User-agent: * darei le istruzioni in pasto a tutti i motori.
Il comando Disallow: / indica un divieto di scansione per tutto il dominio mentre
Disallow: è un permesso in toto.
Infine, posso aggiungere istruzioni di commento con il simbolo # che però sono valide solo per chi le scrive, non per i motori di ricerca. Esempio:
User-agent: googlebot
# Non voglio che Google legga questa pagina
# perché sono fatti miei
Disallow: /articolo.html
Come vedete, le combinazioni sono abbastanza varie e adatte a qualsiasi esigenza.
Mi chiedo soltanto se il file robots.txt continuerà ad avere in futuro la sua importanza in tal senso, o se diventerà ben presto obsoleto, soppiantato da linguaggi di interfaccia più intelligenti e meno vincolanti.
Termino questo post segnalandovi alcuni tool che potete utilizzare per la validazione o il management del file robot.txt ed evitare così errori di sintassi. Li potete scaricare dal sito di Rietta o consultare su Motoricerca.info.