| ataparkSearch è un crawler e motore di ricerca rilasciato sotto la GNU General Public License. Ebot è un crawler scalabile e distribuito scritto in Erlang e rilasciato sotto la GNU General Public License. Wget è un crawler a riga di comando scritto in C e rilasciato sotto la GNU General Public License. È tipicamente usato per siti mirror e FTP. Heritrix è il crawler di maggior qualità di estrazione dagli archivi web, studiato per archiviare periodici screenshot di una larga porzione del web. È stato scritto in Java. ht://Dig include un crawler web nel suo motore di indicizzazione. HTTrack usa un web crawler per creare una replica di un sito web per la consultazione off-line. È stato scritto in C e rilasciato sotto licenza [[GNU General Public License|GNU GPL]]. JSpider è un web spider altamente personalizzabile rilasciato sotto licenza GNU GPL. Methabot è un web crawler ottimizzato per la velocità e a riga di comando scritta in C e rilasciato sotto licenza ISC. Comprende un sistema di configurazione, un modulo di sistema e supporto per obiettivi di crawling attraverso il file system locale, HTTP o FTP. Nutch è un crawler scritto in Java sotto licenza Apache. Può essere usato assieme all'indice testuale creato con Lucene. WebVac è un crawler usato dal Stanford WebBase Project. WebSPHINX (Miller e Bharat, 1998) è composto da una libreria Java che implementa la query multipla delle pagine web e il parsing HTML, un'interfaccia utente grafica per impostare gli indirizzi di partenza per estrarre i dati scaricati e per implementare un motore di ricerca basilare di testo. WIRE - Web Information Retrieval Environment (Baeza-Yates e Castillo, 2002) è un web crawler scritto in C++ e rilasciato sotto licenza GPL, inclusi diverse linee di condotta per catalogare le pagine web scaricate e un modulo per generare statistiche e rapporti sulle pagine scaricate, usato per la caratterizzazione web. LWP::RobotUA (Langheinrich , 2004) è una classe Perl distribuita sotto licenza Perl5. Web Crawler è web crawler open source per .NET scritto in C#. Sherlock Holmes raccoglie e indicizza dati testuali (file di testo, pagine web, ecc.), sia localmente che nella rete. Holmes è sponsorizzato e usato commercialmente dal portale web ceco Centrum. è usato inoltre dal sito Onet.pl. YaCy è un motore di ricerca liberamente distribuito, costruito sui principi dei network di p2p (sotto licenza GPL). Ruya è open source ad alte prestazioni basato sulla ricerca Breadth-first, crawler di livello base. È usato per gestire siti web inglesi e giapponesi nel miglior modo possibile. È rilasciata sotto licenza GPL e scritto interamente in linguaggio Python. Universal Information Crawler è un web crawler di uso veloce. Salva e analizza i dati. Agent Kernel è una struttura Java per pianificare, trattare e stoccare i dati durante il crawling. Squzer, un web crawler open-source, espandibile, multifunzione scritto in Python. Arachnode.NET è un web crawler open source promiscuo per scaricare, indicizzare e salvare contenuti Internet incluse e-mail, file, hyperlink, immagini e pagine web. Arachnode.net è scritto in C# usando SQL Server 2005 ed è rilasciato sotto licenza GPL. BBragnet è un web crawler open source (per server Linux) scritto in PHP utilizzato dal motore di ricerca 2scimmie.it
|