Come impostare un file Robots.txt: la guida

guida-robots-txt

Ci starete dicendo,

“Va bene, abbiamo capito, dobbiamo puntare sul contenuto di qualità, integrare tutti i nostri canali in una campagna ben studiata, scegliere bene le nostre keyword… ma poi?”

Questa è una domanda importante: cosa succede al nostro post o alla nostra web page una volta che vengono pubblicati? In fondo, conoscere come lavorano i motori di ricerca sappiamo essere fondamentale anche nel momento di scrittura dei contenuti per il web.

Succede che il motore di ricerca inizia a leggere il nostro sito grazie ai web crawler, chiamati anche spider o robot, ovvero programmi utilizzati per scandagliare ed analizzare automaticamente  tutti i contenuti in rete, di cui vengono raccolte copie testuali poi inserite in un indice. Ogni motore di ricerca ha un suo web crawler, il più comune è sicuramente Googlebot di Google: quando visita un sito, ne rileva i link presenti in ogni pagina e li inserisce in un elenco di pagine da scansionare, registrando così tutti gli aggiornamenti ma anche i link non più validi.

Come spesso accade però, non tutto quello che viene scritto nel codice di composizione di un sito web vogliamo che venga trovato e in questi casi ci viene in aiuto il file robots.txt attraverso il quale possiamo segnalare allo spider cosa leggere e cosa invece ignorare.

Come abbiamo scritto in “Check-up SEO: 7 motivi per cui Google non indicizza il tuo sito web”:

La differenza tra posizionare ed indicizzare è presto detta: un sito viene indicizzato quando il crawl di Google lo trova e lo inserisce nel proprio “database”; dal quel momento ha la possibilità di generare un’impressione a seconda delle parole chiave per cui è posizionato o – per meglio dire – per cui Google decide sia una tra le risposte migliori alle query di ricerca degli utenti.

Il file robots.txt può essere uno strumento importante per aiutare l’indicizzazione del nostro sito ed è bene che un SEO specialist sappia come scriverlo. Vediamo come fare.

Come impostare un file Robots.txt: la guida

  • Cos’è un file robots.txt

Si tratta di uno standard per l’esclusione dei robot e questo significa che il file robots.txt consiste in una lista di pagine e directory che i crawler non possono prelevare: non sarà quindi utile se speriamo di far notare una pagina specifica, ma solo se vogliamo nascondere qualcosa.

Per costituire lo standard basta utilizzare un qualsiasi text editor e scrivere le nostre istruzioni in un semplice file di testo che dobbiamo nominare “robots.txt” e salvare in formato *.txt.

Una volta creato il file, dobbiamo pubblicarlo nella directory principale online del nostro sito e sarà sempre accessibile all’indirizzo www.nome_del_sito.it/robots.txt.

Una volta creato, tutti i crawler che hanno aderito a questo standard, che sono generalmente quelli della maggior parte dei motori di ricerca, entrando in contatto con il nostro sito, entreranno nella directory principale e seguiranno le direttive indicate.

Far sì che gli spider non leggano un contenuto non vuol dire che quest’ultimo sarà per sempre inaccessibile, ma che non comparirà tra i risultati in serp e noi potremo raggiungerlo all’indirizzo specifico.


  • Come scrivere un file robots.txt

Il file robots.txt è scritto con una grammatica semplice, con pochi comandi e due tipi di campo, quello “User-agent” e quello “Disallow”.

  1. Intestazione

La prima riga dovrà contenere il nome dello spider che vogliamo legga le nostre indicazioni. In questo caso vogliamo che sia ad esempio Googlebot, che sarà l’unico crawler a seguire le direttive indicate.

intestazione-robots-1

Se invece non vogliamo essere così specifici e quindi ci vogliamo rivolgere a tutti i crawler che entreranno nel sito, possiamo scrivere questa intestazione e utilizzare la stessa grammatica:

intestazione-robot-2

Il nostro standard può anche rivolgersi individualmente a diversi crawler, dando a ciascuno indicazioni specifiche e personalizzate, in questo modo:

intestazione-robots-3

2. Disallow

Questo campo serve ad indicare a quali file e directory non vogliamo che il crawler acceda: ogni riga corrisponde ad un elemento che lo spider non deve considerare. La direttiva Disallow può essere ripetuta tante volte quanti sono i file o cartelle che non vogliamo siano lette. Ecco un due esempi: nel primo si chiede di non considerare un file generico, nel secondo un file presente in una specifica cartella che invece va indicizzata:

disallow-robot-1

disallow-robot-2

Possiamo anche far sì che gli spider non leggano l’intero sito, come nel primo caso, o che non abbiano accesso alla directory del sito, come nel secondo caso.

disallow-robots-3

disallow-robots-4

3. Allow

All’interno del file possiamo aggiungere un’eccezione alle direttive imposte dal Disallow con il comando allow, che nella scrittura richiede la stessa grammatica.

allow-robots-1

In questo caso stiamo dicendo al crawler di non leggere la cartella directory eccetto che per il file image.jpg, che vogliamo sia invece individuato.

Nella descrizione del campo Disallow, dobbiamo assicurarci di prestare attenzione a come scriviamo i nomi dei file: non dobbiamo inserire spazi o maiuscole dove non sono richiesti e controllare che il formato di file che chiediamo di escludere sia corretto.

4. Sitemap

La prima cosa che fa uno spider quando entra nel nostro sito è leggere il file robots.txt e una volta conclusa la lettura passa alla sitemap del sito. Sappiamo che la sitemap è quel file dove sono elencate tutti i link del nostro sito, ovvero pagine, immagini, post.

Per ottimizzare i tempi di lettura, l’ideale è inserire una riga nello standard del robots.txt dove indichiamo l’indirizzo della sitemap, in questo modo:

sitemap-robots

5. Commenti

All’interno del file robots.txt possiamo anche aggiungere un commento. La riga sarà semplicemente composta da # seguito dal commento:

commenti-robots


Col tempo è stata Google stessa ad aver ribadito l’importanza di lasciare liberi gli spider dei motori di ricerca di entrare in ogni parte del sito e di leggere ogni suo contenuto.

Secondo Matt Cutts di Google, bloccare alcune pagine per timore che materiale irrilevante possa essere indicizzato e quindi possa penalizzarci, sarebbe un errore. Soprattutto grazie agli ultimi aggiornamenti, Googlebot, a detta dei suoi autori, è uno strumento intelligente che fornisce utili informazioni a Google stesso per capire cosa sia realmente importante all’interno della pagina. Dare al motore di ricerca la possibilità di scandagliare dettagliatamente il nostro sito ci darà la possibilità di sfruttare al meglio ogni sua potenzialità.

Se i crawler dei motori di ricerca entrano nel nostro sito e non trovano un file robots.txt, si comportano come se gli sia stata accordata l’autorizzazione ad accedere a tutte le pagine. Tuttavia, anche se scegliamo di lasciar liberi gli spider è sempre consigliato creare un file robots.txt: in questo modo, infatti, si eviterà un errore 404 e le relative conseguenze.

Infine, come ultimo consiglio è bene segnalare la possibilità di controllare la correttezza del file robots.txt che abbiamo prodotto utilizzando altri siti o programmi appositamente dedicati.

Se hai bisogno di una audit più specifico e di un’analisi sullo stato della tua strategia SEO compila questo form.

Verrai contattato in 24 ore e avrai a disposizione un digital business audit gratuito della durata di 2 ore per creare insieme la strategia di digital marketing per il tuo sito web.

Recommended Posts