HACKING 120% {Hacking, programmazione, computer & molto altro}

Programmare un robot.txt

« Older   Newer »
  Share  
view post Posted on 10/7/2011, 08:49     +1   -1
Avatar

Water can take unforseen forms.

Group:
Founder
Posts:
5,273
Reputation:
+1,147
Location:
Shabang

Status:


Protocollo

Il file robots.txt utilizza un protocollo molto semplice che permette di definire il robot al quale applicare la regola e le pagine e directory da non indicizzare.
Ogni riga del file contiene un record. Ogni record ha la seguente sintassi :
CODICE
<campo> : <valore>

I campi disponibili sono :
User-Agent
il valore di questo campo contiene il nome del robot che si deve attenere alle restrizioni. Con il carattere * la regola viene applicata a qualsiasi robot.
Disallow
il valore di questo campo contiene le pagine del sito che devono essere escluse dai robot durante l'indicizzazione. Si può indicare un URL specifico o una serie di URL appartenenti ad un pattern.
Per ogni User-Agent è possibile specificare una o più restrizioni tramite Disallow

Esempi

Ecco alcuni esempi classici dell'utilizzo del file robots.txt .
Per permettere l'accesso a tutto il sito web, non indicare nulla nella direttiva Disallow. Alcuni crawler supportano anche la direttiva Allow
CODICE
User-agent: *
Disallow:

Per bloccare un intero sito, utilizza una barra.
CITAZIONE
User-agent: *
Disallow: /

Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra.
CODICE
User-agent: *
Disallow: /private_directory/

Per bloccare una pagina, indica tale pagina.
CODICE
User-agent: *
Disallow: /private_file.html

Per segnalare il file sitemap del sito.
CODICE
Sitemap: http://www.example.com/sitemap.xml

Esiste, in aggiunta, la direttiva Crawl-Delay, supportata da alcuni crawler, che permette di regolare il tempo di accesso dello spider.
Se, al posto dell'asterisco, si inserisce una stringa user-agent, nella direttiva User-Agent, le regole verranno limitate al crawler identificato da tale user-agent.

Estensione Standard

Su Extended Standard for Robot Exclusion sono stati proposti due nuovi parametri: Request-rate e Visit-time:
User-agent: *
CODICE
Disallow: /private_directory/   # Blocca la directory /private_directory/
Request-rate: 1/5               # Visita al massimo una pagina ogni 5 secondi
Visit-time: 0600-0845           # Vista soltanto tra le 6:00 AM e le 8:45 AM UT (GMT)

 
Web  Top
0 replies since 10/7/2011, 08:49   236 views
  Share