§ 16. Il meta tag robots e i suoi parametri

Immaginiamo di non avere la possibilità, voglia o capacità di creare/modificare il file robots.txt del proprio sito. Oppure immaginiamo di non volerlo ingrandire troppo. In tutti questi casi potremmo impostare l’indicizzazione del nostro sito o di alcune sue pagine (cioè la sua comparsa tra i risultati di ricerca) con i meta tag da inserire direttamente nel codice. Nonostante una quantità molto limitata dei possibili parametri di tale tag, esso permette di impostare l’indicizzazione in un modo preciso e dettagliato.
La sintassi del meta tag robots è talmente semplice che mi sembra superfluo spiegarla. Passiamo subito allo studio degli esempi concreti.
Prima di tutto ricordatevi che il meta tag robots non fa distinzione tra le lettere maiuscole e minuscole (come tutti gli altri tag di HTML). Di conseguenza, possiamo scrivere così:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"/>

Oppure, per esempio, così:

<META name="ROBOTS" CONTENT="noindex, nofollow"/>

Entrambi gli esempi sono perfettamente funzionanti e producono lo stesso effetto.
Come avrete potuto intuire dai codici precedenti, a variare sono i parametri del «content». Ecco il loro elenco, breve e allo stesso tempo completo:
– index – indicizzare il testo della pagina,
– noindex – non indicizzare il testo della pagina,
– follow – seguire i link della pagina e indicizzarli,
– nofollow – non seguire i link della pagina e non indicizzarli,
– all – indicizzare il testo della pagina, seguire e indicizzare i suoi link,
– none – non indicizzare il testo della pagina, non seguire e non indicizzare i suoi link.
Oltre alla indicazione di un parametro permissivo, esistono altri due modi di autorizzare l’indicizzazione. Il primo – generale – consiste nell’ommettere l’intero meta tag. Il secondo, invece, consiste nell’ommettere uno dei possibili parametri del «content».
Facciamo un esempio. L’assenza del parametro relativo ai link della pagina verrà interpretata come l’autorizzazione a seguire e indicizzare i link:

<meta name="robots" content="noindex" />

L’esempio appena visto del codice farà dunque lo stesso effetto di questo:

<meta name="robots" content="noindex, follow" />

Il divieto totale della indicizzazione della pagina si realizza nel seguente modo:

<meta name="robots" content="noindex, nofollow" />

Il modo più breve per negare totalmente l’indicizzazione alla pagina:

<meta name="robots" content="none" />

Mentre l’autorizzazione alla totale indicizzazione della pagina può anche essa essere fatta con un elenco di due parametri:

<meta name="robots" content="index, follow" />

Oppure di un unico parametro «all»:

<meta name="robots" content="all" />

E ora ipotizziamo la situazione del conflitto tra due meta tag. Immaginiamo che essi contengano i parametri opposti:

<meta name="robots" content="noindex, nofollow" />
<meta name="robots" content="noindex, follow" />

Ebbene, ricordiamoci che nel caso di un conflitto il robot di ricerca applicherà il meta tag permissivo: nell’esempio appena fatto si tratta di quello alla riga 2.
Oltre alla solita indicizzazione delle pagine potremmo necessitare di vietare ai robot di ricerca a salvare le nostre pagine nei propri cache (cioè archivi). Questo è realizzabile con l’aiuto del parametro «noarchive»:

<meta name="robots" content="noarchive"/>

Bisogna ricordare, però, che anche nel caso del divieto totale della indicizzazione (quindi con l’utilizzo contemporaneo dei parametri noindex e nofollow) la pagina non finirà nel cache.
Ecco, ora sapete anche voi come si comunica con i robot attraverso i meta tag.