Programmare un robot.txt

« Older Newer »

Wet Water

Posted on 10/7/2011, 08:49

Water can take unforseen forms.

Group:: Founder

Posts:: 5,273

Reputation:: +1,147

Location:: Shabang

Status:

Protocollo

Il file robots.txt utilizza un protocollo molto semplice che permette di definire il robot al quale applicare la regola e le pagine e directory da non indicizzare.
Ogni riga del file contiene un record. Ogni record ha la seguente sintassi :

CODICE

I campi disponibili sono :
User-Agent
il valore di questo campo contiene il nome del robot che si deve attenere alle restrizioni. Con il carattere * la regola viene applicata a qualsiasi robot.
Disallow
il valore di questo campo contiene le pagine del sito che devono essere escluse dai robot durante l'indicizzazione. Si può indicare un URL specifico o una serie di URL appartenenti ad un pattern.
Per ogni User-Agent è possibile specificare una o più restrizioni tramite Disallow

Esempi

Ecco alcuni esempi classici dell'utilizzo del file robots.txt .
Per permettere l'accesso a tutto il sito web, non indicare nulla nella direttiva Disallow. Alcuni crawler supportano anche la direttiva Allow

CODICE

User-agent: *
Disallow:

Per bloccare un intero sito, utilizza una barra.

CITAZIONE

User-agent: *
Disallow: /

Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra.

CODICE

User-agent: *
Disallow: /private_directory/

Per bloccare una pagina, indica tale pagina.

CODICE

User-agent: *
Disallow: /private_file.html

Per segnalare il file sitemap del sito.

CODICE

Sitemap: http://www.example.com/sitemap.xml

Esiste, in aggiunta, la direttiva Crawl-Delay, supportata da alcuni crawler, che permette di regolare il tempo di accesso dello spider.
Se, al posto dell'asterisco, si inserisce una stringa user-agent, nella direttiva User-Agent, le regole verranno limitate al crawler identificato da tale user-agent.

Estensione Standard

Su Extended Standard for Robot Exclusion sono stati proposti due nuovi parametri: Request-rate e Visit-time:
User-agent: *

CODICE

Disallow: /private_directory/ # Blocca la directory /private_directory/
Request-rate: 1/5 # Visita al massimo una pagina ogni 5 secondi
Visit-time: 0600-0845 # Vista soltanto tra le 6:00 AM e le 8:45 AM UT (GMT)

0 replies since 10/7/2011, 08:49 236 views