HACKING 120% {Hacking, programmazione, computer & molto altro}

Google e-mail scraper (metodo sporco), estrai e-mail da google targettizzate in modo automatizzato

« Older   Newer »
  Share  
icon10  view post Posted on 15/2/2023, 23:16     +1   -1
Avatar

Utente

Group:
Member
Posts:
3
Reputation:
0

Status:


Richiesta una minima competenza nella programmazione
Prima di tutto impariamo ad usare google like a pro!

LE VIRGOLETTE >> " <<: questo fantastico strumento ci permette di cercare stringhe
specifiche nel web per esempio se cerchiamo:
CODICE
"albero"

ci verrà presentata una lista di risultati che contengono esattamente la parola albero non alberi non Alberto ma ALBERO!
Per cui se al posto di albero cerchiamo il dominio dei più famosi email provider ci uscirà almeno un'email per risultato! (mica male)
Se poi aggiungiamo anche qualche altra chiave di ricerca avremmo non solo una lista di email ma una lista di email targhettizzate secondo la nostra ricerca.
L'OR >> OR <<: questo carattere (due per l'esattezza) invece significa questo o quello. Cioè se cerchiamo
CODICE
alberi OR svapo

i risultati che ci appariranno saranno un mix di siti web ambientalisti e siti per fanatici della nicotina!

Detto ciò la query (quello che scrivi sulla barra di ricerca) finale quindi avrà un'aspetto simile se prendiamo come caso negozi di e-cig:
CODICE
svapo shop "@gmail.com" OR "@libero.it"


Ovviamente questi strumenti possono essere incastrati e concatenati come più vi piace! Questo è solo un esempio.


Detto ciò passiamo all'automazione!
Google mette a disposizione degli utenti il cosidetto GSE (Google Search Engine) altro non'è che un server per delle REST API che restituiscono i risultati che siamo abituati a vedere in un comodo formato json.
Questo servizio è gratuito fino a 10000 query al giorno da 10 risultati quindi avremmo un massimo di 100000 email al giorno (buttale via :blink: ).
Dunque per usufruirne dovrete eseguire 2 passaggi:

  • Primo: loggarsi sul GSE e creare un nuovo progetto dove selezionate la voce ricerca su tutto il web quindi recuperare l'API KEY

  • Secondo: creare un motore di ricerca una che volta aperto vi condurrà su una versione di google scrausa dove nella barra del link sotto
    il parametro CX troverete l'id del motore di ricerca

Una volta ottenuti questi 2 elementi (se non sono stato chiaro trovate millemila guide su internet) possiamo procedere con la creazione del bot di scraping!
Creiamo 3 variabili:

  • KEY: qui verrà messa la chiave recuperata dalla console di GSE

  • CX: qui l'id del motore di ricerca recuperato dall'url

  • QUERY: una stringa che verrà usata per ricercare su google


Una volta create le 3 variabili possiamo procedere con la costruzione dell'url da usare per mandare la richiesta GET a google.
CODICE
https://www.googleapis.com/customsearch/v1?q=[QUERY]&key=[KEY]&cx=[CX]



Quasi finito!
Bene abbiamo: costruito il link, mandato la richiesta e ottenuto il nostro file json!
Ora non ci resta che estrapolare le email raccolte con un po' di regex magic!
Per semplificarvi la vita ecco un'espressione regolare che permette di fare il match di un'email:
CODICE
^[\w-\.]+@([\w-]+\.)+[\w-]{2,4}$

Infine non resta che salvare le email raccolte dove più vi piace (file o database) e iniziare con il web marketing!!!

Conclusioni: questo metodo permette di estrarre una grossa quantità di email dal web. Lo considero sporco perché non si ha nessun modo di estrarre email personalizzate tipo [email protected], ma è comunque molto efficiente dato che avremmo quasi il 100% di probabilità di avere un'email per risultato.

Per altre info o richieste particolare i miei MP sono aperti a tutti!
nei prossimi giorni posterò un tutorial per il metodo "pulito" quindi stay tuned!
 
Top
0 replies since 15/2/2023, 23:15   26 views
  Share