WordPress: impostare il file robots.txt


Il file robots.txt contiene delle regole utilizzate dai crawler (detti anche spider) per applicare restrizioni di analisi sulle pagine di un sito internet.

I web crawler sono dei software automatici programmati per effettuare ricerche ed indicizzazioni periodiche. Nella prima fase di analisi di un sito web controllano l’esistenza del file robots.txt per applicare eventuali restrizioni richieste dal webmaster del sito.

fonte Wikipedia

In parole più spicce Un sito come Google manda in giro per il web degli “ispettori” (crwaler, spider, robot, e sinonimi)  che analizzano e studiano il nostro sito per poi riportare le informazioni alla base, in questo caso Google, il quale deciderà di indicizzarlo nelle sue pagine, tramite il file robots.txt noi possiamo decidere quale parte del nostro sito fare indicizzare e quale no, e a quali crawler dare il permesso di entrare.

Facile capire che preparare un buon file robots.txt è uno dei fondamenti del SEO, che viene ancora prima di tutte quelle regole che si possono trovare nei migliori blog.

Come funziona

il file robots è un semplice file di testo con estensione .txt che deve essere inserito obbligatoriamente nella directory principale del nostro sito, altrimenti non verrà riconosciuto dai crawler.

il suo funzionamento è tanto semplice quanto intuitivo e utile, avviene tramite la scrittura di pochi comandi, i principali sono Useragent che indica il nome del crawler e Disallow che indica quale parte del sito indicizzare o no.

Qualche esempio pratico:

Con queste istruzioni diremo a tutti i crawler esistenti di non indicizzare nulla del nostro sito.

User-agent: *       # l'asterisco viene considerato come selettore universale
Disallow: /        # lo slash indica l' apertura di una cartella o directory
in questo caso quella principale del nostro dominio e tutte le sottocartelle.

Tramite questo comando invece diciamo a tutti i crawler di indicizzare tutto il nostro sito indistintamente

User-agent: *
Disallow:

Il robot e WordPress

Dopo questa breve introduzione veniamo al nostro argomento ovvero WordPress e il file robots.txt: In che maniera ci può aiutare?

Uno dei problemi principali di chi possiede un blog è la duplicazione degli articoli inseriti in più categorie, questo potrebbe comprometterne seriamente l’ indicizzazione, per evitare ciò possiamo dire agli spider di non analizzare gli articoli nelle categorie e negli archivi del blog evitando così che vengano considerati due volte.

User-agent: *
Disallow: /category/
Disallow: /archives/

un altro aspetto sono i tag keyword che usiamo negli articoli, questi sembrano ormai non essere più calcolati dai maggiori motori di ricerca e potrebbero diventare addirittura nocivi per la nostra indicizzazione se usati molto male.
I tag rimangono comunque un utile strumento di navigazione per i visitatori, la soluzione migliore quindi sarà fare in modo che i crawler non indicizzino i nostri tag, ma allo stesso tempo utilizzarli per i nostri scopi.

User-agent: *
Disallow: /tag/

Il nostro robots potrebbe anche tornarci utile per vietare l’ingresso a crawler nocivi del nostro sito, per farlo sarà sufficiente questa istruzione.

User-agent: nome del bad crawler
Disallow: /

Al contrario se vogliamo che un particolare spider riceva particolari istruzioni di indicizzazione possiamo scrivere questo comando.

User-agent: nome del crawler
Disallow:

Il file robots è un file aperto a tutti, possiamo vedere quello di qualsiasi sito digitando http://www.nomedelsito.com/robots.txt

il mio è questo

User-agent: *
Allow:/
Disallow: /tag/
Disallow: /category/
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /archives/
Disallow: /author/
Sitemap: http://www.tuosito.com/sitemap.xml
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /

Provate a vedere i robots dei maggiori siti o social network come facebook, potrebbe essere molto interessante.

Fonti: Robots.txt, Wikipedia, GT forum per alcuni spunti

Info sull' autore:
Nato a Bologna, mi occupo della realizzazione grafica e dello sviluppo front-end di siti web e sono il fondatore di questo blog. Se vuoi segnalare qualche problema o hai qualche richiesta particolare invia una mail tramite il modulo contatti.
Leggi gli altri articoli di

4 Risposte per WordPress: impostare il file robots.txt

  1. Stefano Ferruggiara 20 dicembre 2011 at 21:03 | Permalink | Reply

    Ciao, una info..
    Reputi fondamentale inserire Allow: / all’inizio? perché il file mi sembra utilissimo e paragonato a molti altri consigli in rete non ho MAI visto mettere Allow: / come comando iniziale seguito dai vari settaggi.
    Gradivo sapere come mai tu lo hai inserito e perché lo reputi così utile. Grazie! ;)

    E.. un consiglio.. settare correttamente il meta tag robot?

    • Francesco 22 dicembre 2011 at 13:30 | Permalink | Reply

      Ciao Stefano, nel file robot puoi usare sia Allow che Disallow dipende cosa vuoi che succeda e come vuoi che succeda, io uso Allow:/ in questo caso perchè voglio dire che un determinato user agent può avere l’accesso (quindi allow) al sito, ma volendo avresti potuto scrivere la stessa istruzione usando anche il comando Disallow.

      Il meta tag Robots indica agli spider come interpretare i link all’interno di una determinata pagina web e se indicizzare nel database o meno quella pagina, questa ultima parte è simile al file robots.txt, comunque non tutti gli spider riconoscono questo tag

      per vedere come settarlo ti rimando a questo breve articolo http://www.googlerank.it/Guide_SEO/Fattori_Ranking_Interni/Robots-Tag.asp

  2. hotel rimini 17 gennaio 2012 at 19:05 | Permalink | Reply

    Ciao Francesco,

    ho sempre usato Joomla ma attualmente volevo mettere online un blog e chiaramente ho subito pensato a WordPress.

    Solo leggendo il tuo articolo mi sono reso conto che la mia installazione di WP (attualmente in locale) non contiene il file robots.txt.

    E’ normale ? Sai se esiste qualche plugin che faccia tutto in automatico (sono pigro di natura) o devo scrivermelo io ?

    Grazie

    • Francesco 18 gennaio 2012 at 21:36 | Permalink | Reply

      Ciao, in locale si è normale che non ci sia questo tipo di file, anche perchè non serivrebbe a nulla.

      Mentre se hai uno spazio web entrando con un FTP dovresti vederlo, nel caso basta creare un file con un qualsiasi editor di testo rinominarlo robots.txt e inserirlo nella directory principale tramite il tuo FTP.

      Esistono diversi plugin che ti permettono di gestire il file robots direttamete del pannello admin di WordPress, ma che ti facciano tutto in automatico no, anche perchè non avrebbe senso, lo scopo di questo file è quello di non segnalare ai motori di ricerca qualcosa e lo puoi sapere solo tu ciò che ti serve o meno, se proprio sei troppo pigro puoi sempre copiare il codice di questo articolo!

Lascia un commento

Trackbacks