Faire du scraping avec Google Dorks - Exemple
Faire du scraping avec Google Dorks - Exemple
Voici une méthode qui peut être intéressante pour le scraping en s'aidant des résultats de recherche avancée de Google (aussi appelée Google Dorks).
Sommaire :
Google dorks c'est quoi ?
Les Google Dorks sont les recherches avancées de Google. Il existe des commandes pour chercher sur un site web spécifique, une URL, des fichiers .pdf, etc...
Pour les utiliser, il suffit de les taper dans la barre de recherche Google.
Il existe aussi une page web pour construire ces recherches plus aisément. : https://www.google.com/advanced_search
Quelques commande Google Dorks
Recherche d'un mot exact :
- Utilisation :
"mot exact"
- Exemple :
"intelligence artificielle"
- Utilisation :
Exclure un mot :
- Utilisation :
-mot
- Exemple :
pomme -iphone
- Utilisation :
Recherche dans un site spécifique :
- Utilisation :
site:domaine.com
- Exemple :
intelligence artificielle site:wikipedia.org
- Utilisation :
Rechercher une URL spécifique :
- Utilisation :
inurl:mot
- Exemple :
inurl:blog
- Utilisation :
Rechercher un texte dans le titre de la page :
- Utilisation :
intitle:mot
- Exemple :
intitle:recette
- Utilisation :
Rechercher des mots dans le texte :
- Utilisation :
intext:mot
- Exemple :
intext:"machine learning"
- Utilisation :
Recherche de fichiers spécifiques :
- Utilisation :
filetype:type
- Exemple :
introduction machine learning filetype:pdf
- Utilisation :
Recherche de pages liées :
- Utilisation :
link:domaine.com
- Exemple :
link:openai.com
- Utilisation :
Recherche de pages qui mentionnent un certain mot, mais sans le mot lui-même :
- Utilisation :
info:domaine.com
- Exemple :
info:openai.com
- Utilisation :
Recherche par plage de nombres :
- Utilisation :
mot $X..$Y
- Exemple :
laptop $500..$1000
- Utilisation :
Rechercher dans le cache Google d'une URL :
- Utilisation :
cache:URL
- Exemple :
cache:openai.com
- Utilisation :
Exemple Google Dorks pour le scraping
Voila quelques exemple concret d'utilisation pour le scraping.
Recherche d'une page contact d'un site web specifique :
- site:bvl-menuiserie.fr inurl:contact
Recherche d'un sitemap :
- site:m-habitat.fr "sitemap"
Recherche de menuisier à paris avec une page contact :
- "menuisier" "paris" email inurl:contact
Scraper les résultats de recherche Google
Une fois que vous avez trouvé les résultats qui vous intéressent, il va falloir scraper le contenu (si vous avez beaucoup de pages).
Il existe plusieurs solutions, personnellement j'utilise le logiciel "Browser Automation Studio" de Bablosoft.
C'est un logiciel gratuit qui permet de scraper et d'automatiser des tâches. Il n'est pas simple d'utilisation, si vous souhaitez vous former, j'ai créé une formation.
Lien formation Browser Automation Studio
Il existe d'autres logiciels comme Octoparse ou Outscraper, mais le plus souvent payants ou très limités en version gratuite.
Si vous souhaitez que je scrape des résultats de recherche pour vous, je peux le faire, n'hésitez pas à me contacter.
Commentaires
Enregistrer un commentaire
🖐 Hello,
N'hésitez pas à commenter ou vous exprimer si vous avez des trucs à dire . . .👉