Tutto WebMaster
HOME BLOG SEO TOOLS NET TOOLS DIRECTORY REGISTRAZIONE NEWS LINK SITE MAP
Categorie Articoli



Cerca
 »  Home  »  Posizionamento  »  Guida al Posizionamento nei Motori di Ricerca

Il file robots.txt

Spesso si ha la necessità di inibire agli agenti dei motori di ricerca o ad alcuni programmi l'accesso al tuo sito oppure ad una sua sezione. A questo scopo è opportuno usare il file robots.txt, inserito nel root del sito, che comunica con i spider dei motori ma anche con i cosiddetti "offline browser" (software che scaricano sull'hard disk del PC l'intero sito), istruendoli a leggere o meno i contenuti speficati. 

La restrizione è utile in quanto gli off-line browser sono eccellenti nel consumare la banda e il traffico, mentre gli spider possono rendere accessibili on-line zone del tuo sito che vorresti far rimanere private.

Per evitare che ciò avvenga si può agire sia sul server, modificando le impostazioni del web server che ospita il sito, oppure sul sito, usando una soluzione che piano piano è diventata uno standard: il file robots.txt.

Ogni software che visualizza pagine web deve, prima di iniziare a recuperare il contenuto del sito, verificare la presenza di un file situato nella radice del sito: il file robots.txt. In questo file il webmaster può inserire i "permessi di visita" del proprio sito indicando quali software o robot hanno accesso e quali invece no.

La struttura del file robots.txt

Il file robots.txt è un semplicissimo file di testo che, nella sua forma ideale, dovrebbe contenere semplicemente due campi: User-agent e Disallow. Il primo campo serve a definire quale robot dovrà essere escluso, il secondo definisce la zona del sito dal quale escluderlo.

Crea il file con un normale editor di testo e caricalo nella root del tuo sito. E' opportuno inserirlo  anche se non specifica nulla da escludere, come nell'esempio di sotto:

User-agent: *
Disallow:

Chi e cosa escludere?

Solitamente ad essere escluse per prime sono le directory che contengono contenuto che non si vuole rendere pubblico: le pagine di amministrazione, dati o pagine ad uso interno.

User-agent: *
Disallow: /cgi-bin/
Disallow: /dati/
Disallow: /interno/

Altretanto utile è l'esclusione di specifici robots "maligni", tra cui quelli che:

  • Creano traffico inutile sul tuo sito
  • Scandagliano le pagine per trovare indirizzi e-mail da utilizzarle per spam
  • Fanno troppe richieste e sovraccaricano il server
  • Non sono utili per il tuo sito

Il metodo più efficace per trovarli è quello di verificare le statistiche o i log di accesso e cercare i nomi degli user agent che passano sul tuo sito.

I robot indesiderati

Escludi qualche robot per ciascuna categoria menzionata. Per farlo apri Blocco Note di Windows, o il tuo editor testuale preferito, e aggiungi i campi come evidenziato sotto.

Con il primo campo escludi dall'intero sito il robot di Google che cerca e indicizza le immagini. Questa esclusione è opportuna sia per risparmiare traffico (il passaggio quotidiano del bot può generare un notevole traffico, specialmente se il tuo sito contiene tante immagini) e per evitare che le tue  immagini siano prese e riadattate da altri.

User-Agent: Googlebot-Image
Disallow: /

Escludi anche il robot di NetMechanic, sito che offre servizi di controllo di siti Web cui non siamo interessati.

User-agent: NetMechanic
Disallow: /

Escludi anche EmailCollector, un software che ricerca sulla rete indirizzi di e-mail per poi utilizzarli per spam.

User-agent: EmailCollector
Disallow: /

Infine, escludi anche Teleport, l'offline browser noto per le sue capacità di sovraccaricare il server, generare traffico e far scaricare il tuo intero sito web da altri.

User-agent: Teleport
Disallow: /

Salvia il file come robots.txt, collegati via FTP al server che ospita il tuo sito e carica il file nella directory principale. Se tutto è a posto, tra qualche giorno i robot specificati spariranno dai file di log, insieme ai loro effetti indesiderati.

Per una lista di spider visita il sito: 

http://www.robotstxt.org/wc/active/html/index.html






Top
CheckUp del sito
Meta tag analyzer
Trova link errati
Meta tag generator
Sitemap generator
Google sitemap generator.
Opzioni articolo
Articoli pił letti
  1. Guida al Posizionamento nei Motori di Ricerca
  2. 15 regole per una Newsletter di successo
  3. Indicizzazione garantita con Google Sitemaps
  4. Valore del sito
  5. Posizionamento nei motori di ricerca - usa il SEO ToolBox di TuttoWebMaster.it
No popular articles found.
 

[ Ottimizzazione siti | Blog | Strumenti SEO | Strumenti di rete | Directory | F.A.Q. ]
[ Registrazione | Condizioni | Privacy | Contatti | Link | Mappa del sito ]


Copyright © 2017

Genesys Informatica Srl
P.iva 02002750483