Spider open source

« Older Newer »

Wet Water

Posted on 10/7/2011, 09:04

Water can take unforseen forms.

Group:: Founder

Posts:: 5,273

Reputation:: +1,147

Location:: Shabang

Status:

ataparkSearch è un crawler e motore di ricerca rilasciato sotto la GNU General Public License.
Ebot è un crawler scalabile e distribuito scritto in Erlang e rilasciato sotto la GNU General Public License.
Wget è un crawler a riga di comando scritto in C e rilasciato sotto la GNU General Public License. È tipicamente usato per siti mirror e FTP.
Heritrix è il crawler di maggior qualità di estrazione dagli archivi web, studiato per archiviare periodici screenshot di una larga porzione del web. È stato scritto in Java.
ht://Dig include un crawler web nel suo motore di indicizzazione.
HTTrack usa un web crawler per creare una replica di un sito web per la consultazione off-line. È stato scritto in C e rilasciato sotto licenza [[GNU General Public License|GNU GPL]].
JSpider è un web spider altamente personalizzabile rilasciato sotto licenza GNU GPL.
Methabot è un web crawler ottimizzato per la velocità e a riga di comando scritta in C e rilasciato sotto licenza ISC. Comprende un sistema di configurazione, un modulo di sistema e supporto per obiettivi di crawling attraverso il file system locale, HTTP o FTP.
Nutch è un crawler scritto in Java sotto licenza Apache. Può essere usato assieme all'indice testuale creato con Lucene.
WebVac è un crawler usato dal Stanford WebBase Project.
WebSPHINX (Miller e Bharat, 1998) è composto da una libreria Java che implementa la query multipla delle pagine web e il parsing HTML, un'interfaccia utente grafica per impostare gli indirizzi di partenza per estrarre i dati scaricati e per implementare un motore di ricerca basilare di testo.
WIRE - Web Information Retrieval Environment (Baeza-Yates e Castillo, 2002) è un web crawler scritto in C++ e rilasciato sotto licenza GPL, inclusi diverse linee di condotta per catalogare le pagine web scaricate e un modulo per generare statistiche e rapporti sulle pagine scaricate, usato per la caratterizzazione web.
LWP::RobotUA (Langheinrich , 2004) è una classe Perl distribuita sotto licenza Perl5.
Web Crawler è web crawler open source per .NET scritto in C#.
Sherlock Holmes raccoglie e indicizza dati testuali (file di testo, pagine web, ecc.), sia localmente che nella rete. Holmes è sponsorizzato e usato commercialmente dal portale web ceco Centrum. è usato inoltre dal sito Onet.pl.
YaCy è un motore di ricerca liberamente distribuito, costruito sui principi dei network di p2p (sotto licenza GPL).
Ruya è open source ad alte prestazioni basato sulla ricerca Breadth-first, crawler di livello base. È usato per gestire siti web inglesi e giapponesi nel miglior modo possibile. È rilasciata sotto licenza GPL e scritto interamente in linguaggio Python.
Universal Information Crawler è un web crawler di uso veloce. Salva e analizza i dati.
Agent Kernel è una struttura Java per pianificare, trattare e stoccare i dati durante il crawling.
Squzer, un web crawler open-source, espandibile, multifunzione scritto in Python.
Arachnode.NET è un web crawler open source promiscuo per scaricare, indicizzare e salvare contenuti Internet incluse e-mail, file, hyperlink, immagini e pagine web. Arachnode.net è scritto in C# usando SQL Server 2005 ed è rilasciato sotto licenza GPL.
BBragnet è un web crawler open source (per server Linux) scritto in PHP utilizzato dal motore di ricerca 2scimmie.it

0 replies since 10/7/2011, 09:04 486 views