ProtocolloIl file robots.txt utilizza un protocollo molto semplice che permette di definire il robot al quale applicare la regola e le pagine e directory da non indicizzare.
Ogni riga del file contiene un record. Ogni record ha la seguente sintassi :
I campi disponibili sono :
User-Agent
il valore di questo campo contiene il nome del robot che si deve attenere alle restrizioni. Con il carattere * la regola viene applicata a qualsiasi robot.
Disallow
il valore di questo campo contiene le pagine del sito che devono essere escluse dai robot durante l'indicizzazione. Si può indicare un URL specifico o una serie di URL appartenenti ad un pattern.
Per ogni User-Agent è possibile specificare una o più restrizioni tramite Disallow
EsempiEcco alcuni esempi classici dell'utilizzo del file robots.txt .
Per permettere l'accesso a tutto il sito web, non indicare nulla nella direttiva Disallow. Alcuni crawler supportano anche la direttiva Allow
CODICE
User-agent: *
Disallow:
Per bloccare un intero sito, utilizza una barra.
CITAZIONE
User-agent: *
Disallow: /
Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra.
CODICE
User-agent: *
Disallow: /private_directory/
Per bloccare una pagina, indica tale pagina.
CODICE
User-agent: *
Disallow: /private_file.html
Per segnalare il file sitemap del sito.
CODICE
Sitemap: http://www.example.com/sitemap.xml
Esiste, in aggiunta, la direttiva Crawl-Delay, supportata da alcuni crawler, che permette di regolare il tempo di accesso dello spider.
Se, al posto dell'asterisco, si inserisce una stringa user-agent, nella direttiva User-Agent, le regole verranno limitate al crawler identificato da tale user-agent.
Estensione StandardSu Extended Standard for Robot Exclusion sono stati proposti due nuovi parametri: Request-rate e Visit-time:
User-agent: *
CODICE
Disallow: /private_directory/ # Blocca la directory /private_directory/
Request-rate: 1/5 # Visita al massimo una pagina ogni 5 secondi
Visit-time: 0600-0845 # Vista soltanto tra le 6:00 AM e le 8:45 AM UT (GMT)