Web Scraping simple avec Google Sheets ➕ Scraping leboncoin

- décembre 14, 2022

https://ti.gregland.net/2017/06/22/collecter-les-donnees-dun-site-en-30-secondes-avec-google-sheets/

COLLECTER LES DONNÉES D’UN SITE EN 30 SECONDES AVEC GOOGLE SHEETS

Posted by: Grégory Hargous | on juin 22, 2017

NB : cet article demande quelques bases en HTML et en CSS, notamment sur les concepts de balise et de classes. Ces bases peuvent néanmoins s’acquérir très rapidement, notamment en consultant le site suivant.

Introduction

La digitalisation de la société et l’essor du e-commerce engendrent chez les webmarketeurs et les managers un besoin croissant d’accéder à l’information en temps réel. Il devient de plus en plus primordial d’être capable de consulter instantanément et sur de larges volumes des informations telles que les derniers tweets de telle ou telle entreprise, ou bien les prix de tel ou tel concurrent.

digital-crawl

C’est pourquoi le data crawling, ou collecte automatisée de données, connaît une popularité grandissante auprès des managers d’aujourd’hui. Vous pouvez notamment utiliser le data crawling et la méthode que nous allons aborder aujourd’hui pour faire du price monitoring de votre concurrence, mener très rapidement des audits SEO de sites web, être averti en temps réel de la publication d’offres d’emploi sur le site carrière d’une entreprise … les applications sont illimitées.

Au cours de ces dernières années, Google a fortement mis l’accent sur sa suite bureautique, et a réussi à séduire de plus en plus d’entreprises, non sans raisons. Cette stratégie culmine avec le récent lancement de GSuite, présenté comme un “ensemble d’applications intelligentes pour les entreprises ». Cette définition, quoique pompeuse, est tout à fait appropriée, dans la mesure où les applications de Google telles que Drive, Gmail ou encore Sheets se différencient de la concurrence de par leur faculté à se “connecter » au web, et à pouvoir interagir entre elles. Il est ainsi possible de crawler des données avec Sheets, de les stocker sur Drive, puis de les envoyer automatiquement par mail via Gmail.

Nous allons aujourd’hui nous concentrer sur la possibilité de crawler des données via Sheets, qui est l’équivalent SaaS par Google de Microsoft Excel.

1 – La fonction IMPORTXML

D’après le support de Google, la fonction IMPORTXML “importe des données depuis des types de données structurées tels que XML, HTML, CSV, TSV et des flux RSS et ATOM XML. »

Bien plus que cela, cette formule importe les données et les rafraîchit en live si leur valeur change sur la page que vous crawlez !

Sa syntaxe est la suivante : IMPORTXML("url", "requête_xpath")

Avec :

URL : adresse de la page à examiner, protocole inclus (http, https…)
requête_xpath : requête XPath à exécuter sur les données structurées.

Ne prenez pas peur, malgré son nom peu avenant, l’utilisation du XPath est assez simple à appréhender : c’est une sorte “d’adresse » qui permet de naviguer entre les éléments d’une page web. De plus, nous allons voir qu’il est très facile à obtenir.

2 – Les choses sérieuses commencent

Sans plus attendre, mettons en application ! Pour commencer, nous allons crawler le dernier article de la liste des articles “en continu » du Monde.

Retrouvez tous les exemples de cet article en cliquant ici : http://bit.ly/2n4Kx5m
Rendez-vous à l’adresse sur Google Drive, connectez vous à l’aide de votre compte Google, et créez une nouvelle Sheets (bouton bleu “Nouveau » > Sheets en haut à gauche de l’écran).

Maintenant que votre fichier de travail est ouvert, positionnez-vous dans la cellule A1. Pour que notre fonction IMPORTXML fonctionne, nous avons besoin de deux éléments : l’adresse de la page à visiter, et le XPath de l’élément à crawler.

Pour l’adresse, il s’agit de http://www.lemonde.fr, nous allons donc maintenant chercher le XPath.

Rendez-vous sur Le Monde, de préférence à l’aide de Google Chrome (ce tutoriel se basera sur ce navigateur, qui est le plus utilisé aujourd’hui). La liste des articles “en continu » est située à droite de l’image principale de la page.

Positionnez votre souris sur le premier lien de cette liste et effectuez un clic droit > Inspecter.
Le code HTML de la page s’affiche, et le code du lien est en surbrillance (en bleu).
Positionnez votre souris sur cette surbrillance bleue et effectuez un clic droit > Copy > Copy XPath.
Nous avons désormais tout ce dont nous avions besoin ! Retournez sur Google Sheets, positionnez-vous dans la case A1, et inscrivez-y la formule :

=IMPORTXML("http://www.lemonde.fr";"//*[@id='habillagepub']/div[1]/div/div[2]/div[1]/div[1]/ul[1]/li[1]/a")

NB : La partie //*[@id='habillagepub']/div[1]/div/div[2]/div[1]/div[1]/ul[1]/li[1]/acorrespond au XPath que vous avez copié dans votre presse-papier.

Appuyez sur entrée, et après une petite séquence de chargement, le résultat s’affiche : félicitations, vous avez crawlé vos premières données avec Google Sheets !

digital-crawl-donnees

Si vous obtenez une erreur, c’est très probablement car vous avez des guillemets dans votre XPath, et ceux-ci posent un problème avec les guillemets de la formule. Remplacez-les par des apostrophes et tout devrait marcher !

Exemple : [@id="habillagepub"] devient [@id='habillagepub']

3 – Allons plus loin

Comme vous l’aurez remarqué, nous n’avons crawlé que le dernier article de la liste. Il serait bien plus intéressant d’avoir la liste entière.

Ceci nécessite de jongler un peu avec le XPath. Vous aurez remarqué les numéros entre crochets dans celui-ci : ils signifient que nous sélectionnons l’élément qui porte ce numéro dans l’arborescence de la page. Par exemple, « div[2] » signifie que nous sélectionnons le 2e élément <div>.

En étudiant un peu le code, on remarque que tous les liens des articles “en continu » sont contenus dans des éléments <a>, eux-même contenus dans des éléments <li>. Or, si l’on regarde dans le XPath, nous y avons uniquement sélectionné le premier élément <li> :

//*[@id='habillagepub']/div[1]/div/div[2]/div[1]/div[1]/ul[1]/li[1]/a

Si nous voulons sélectionner tous les liens, il suffit donc de supprimer ce numéro, et IMPORTXML crawlera par défaut tous les éléments.

Essayons donc avec la formule suivante :

=IMPORTXML("http://www.lemonde.fr";"//*[@id='habillagepub']/div[1]/div/div[2]/div[1]/div[1]/ul[1]/li/a")

digital-crawl

Vous l’avez sans doute compris, lors de vos propres tentatives, les difficultés que vous rencontrerez seront principalement dues au XPath, qui est un outil peut-être compliqué à aborder à première vue, mais néanmoins très logique, et extrêmement puissant. Il est utilisé dans de très nombreux domaines et je ne peux que vous conseiller de vous documenter sur ses subtilités. Il est possible que vous ne réussissiez pas à obtenir le résultat souhaité du premier coup, il faudra alors essayer de l’obtenir en modifiant le XPath (ce qui peut s’avérer hardu au premier essai, j’en conviens).

Pour plus d’informations sur le XPath, c’est par ici : http://www.w3schools.com/xml/xpath_intro.asp.

4 – Allons encore plus loin

Imaginons que nous voulons récupérer la liste de tous les articles du blog Crème de la Crème et leur titre. La liste de tous les articles est assez facile à trouver, il suffit de se rendre sur le sitemap de Crème de la Crème(le fichier qui contient toutes les adresses du site, afin que Google puisse les indexer). Cependant, le titre de l’article est une information qui se trouve ailleurs, sur chacune des pages d’article. Nous allons donc devoir crawler cette information sur chacun des articles du blog.

Le fichier sitemap des posts de Crème de la Crème se situe à cette adresse. Nous allons donc tout d’abord crawler la liste de toutes les adresses d’articles à l’aide de la formule :

=importxml("http://blog.cremedelacreme.io/sitemap-posts.xml";"//*[local-name() ='url']/*[local-name() ='loc']")

digital-crawl

Puis, en observant le code d’une page d’article, on se rend compte que le titre est une balise <h1> portant la classe « post-title ». Autre force du XPath, nous allons donc crawler ces titres en les sélectionnant par classe :

=importxml(A1;"//h1[@class='post-title']")

Etendez la formule jusqu’au bas de la liste d’articles, et le tour est joué ! Si vous voulez crawler plusieurs informations distinctes sur la même page en une seule formule, c’est possible aussi avec IMPORTXML ! Vous n’avez qu’à inscrire plusieurs XPath à la suite en les séparant par une barre verticale « | ».

Par exemple, si vous voulez aussi, en plus de son titre, crawler les tags de chaque article, utilisez la formule suivante :

=importxml(A1;"//div[@class='tag-links']/a|//h1[@class='post-title']")

Cependant, ici les données s’affichent les unes en dessous des autres et nous empêchent d’étendre la formule. On utilisera donc la formule TRANSPOSE qui permet de transformer une colonne en ligne (et inversement), ce qui donne finalement la formule :

=transpose(importxml(A1;"//div[@class='tag-links']/a|//h1[@class='post-title']"))

5 – Repousser les limites

IMPORTXML est une fonction très puissante pour collecter les données du web. Comme nous l’avons vu, elle se base essentiellement sur le XPath, et il est primordial que vous vous documentiez un peu plus en détail à son sujet si vous souhaitez pouvoir crawler toutes les données que vous souhaitez.

Cette fonction fera le travail souhaité et vous donnera pleinement satisfaction dans la grande majorité des cas. Cependant, il faut lui reconnaître des limites, notamment en terme de vitesse de crawl sur les très grands volumes de données. Un simple copier-coller du XPath ne marchera pas toujours non plus, il faudra parfois le modifier un peu avec pour obtenir le résultat souhaité.

digital-crawl-tips

Il devient alors beaucoup plus intéressant de développer ses propres fonctions pour Google avec Sheets avec GScript, le langage de programmation de Google. Ce langage quasi-jumeau de Javascript vous permettra de développer des API et des applications très rapides pour Sheets, Drive, Doc, Gmail… à la manière des macros sur Excel.

Il devient alors notamment possible de manipuler en profondeur les données, de programmer des actions dans le temps, de créer dynamiquement des feuilles de calculs, voire même d’envoyer par mail leur résultat de manière automatique … ce que nous verrons dans un prochain article !

Source de ce bel article : cremedelacreme.io

Web Scraping simple à l'aide de Google Sheets (mise à jour 2022)

jeudi 04 août 2022

Un outil de Web scraping peut automatiser le processus de copie et de collage répétitif. En fait, les feuilles de Google peuvent être considérées comme un Web scraper de base. Vous pouvez utiliser une formule spéciale pour extraire des données d'une page Web, importer les données directement dans des feuilles Google et les partager avec vos amis.

Dans cet article, je vais d'abord vous montrer comment créer un simple Web scraper avec Google Sheets. Ensuite, je vais le comparer avec un Web scraper automatique, Octoparse. Après l'avoir lu, vous aurez une idée claire de la méthode qui conviendrait le mieux à vos besoins spécifiques de Web scraping.

Option#1: Créez un web scraper simple en utilisant ImportXML dans les feuilles de calcul Google

Étape 1: Ouvrez une nouvelle feuille Google.

Étape 2: Cliquez avec le bouton droit sur la page Web et cela fait apparaître un menu déroulant. Puis sélectionnez "inspecter". Appuyez sur une combinaison de trois touches: "Ctrl" + "Shift" + "C" pour activer "Selector". Cela permettrait au panneau d'inspection d'obtenir les informations de l'élément sélectionné dans la page Web.

Étape 3: Copiez et collez l'URL du site Web dans la feuille.

Option#2: Essayons de récupérer les données de prix avec une formule simple: ImportXML

Étape 1: Copiez le Xpath de l'élément. Sélectionnez l'élément de prix et cliquez avec le bouton droit de la souris pour faire apparaître le menu déroulant. Sélectionnez ensuite «Copier», choisissez «Copier XPath».

Étape 2: Tapez la formule dans la feuille de calcul.

= IMPORTXML ("URL", "Expression XPATH")

Notez que "l'expression Xpath" est celle que nous venons de copier à partir de Chrome. Remplacez le guillemet double " " dans l'expression Xpath par un guillemet simple ".

Option#3: Il existe une autre formule que nous pouvons utiliser:

= IMPORTHTML ("URL", "QUERY", Index)

Avec cette formule, vous extrayez la table entière.

Voyons maintenant comment la même tâche de grattage peut être accomplie avec un web scraper, Octoparse.

Étape 1: Ouvrez Octoparse, créez une nouvelle tâche en choisissant «+ Tâche» sous le «Mode avancé»

Étape 2: Choisissez votre groupe de tâches préféré. Entrez ensuite l'URL du site Web cible et cliquez sur "Enregistrer l'URL". Dans ce cas: site Web de vente de jeux http://steamspy.com/

Étape 3: Le site Web Avis de vente de jeux s'affiche dans la section d'affichage interactive d'Octoparse. Nous devons créer une liste de boucles pour qu'Octoparse parcoure les listes.

1. Cliquez sur une ligne du tableau (il peut s'agir de n'importe quel fichier du tableau) Octoparse détecte alors les éléments similaires et les met en surbrillance en rouge.

2. Nous devons extraire par lignes, donc choisissez «TR» (Table Row) dans le panneau de contrôle.

3. Une fois qu'une ligne a été sélectionnée, choisissez la commande «Sélectionner tous les sous-éléments» dans le panneau Conseils d'action.

Étape 4: Choisissez «Extraire les données dans la boucle» pour extraire les données.

Vous pouvez exporter les données vers Excel, CSV, TXT ou d'autres formats souhaités. Alors que la feuille de calcul nécessite que vous copiez et colliez physiquement, Octoparse automatise le processus. De plus, Octoparse a plus de contrôle sur les sites Web dynamiques avec AJAX ou reCaptcha.

Plus de ressources:

Les 3 Meilleures Façons d'Extraire les Données d'un Site Web

Top 30 des outils Big Data pour l'analyse de données

25 astuces pour développer votre entreprise avec l'extraction de données Web

Modèles de Web Scraping

Vidéo: Créez votre premier Scraper avec Octoparse 8.X

https://dynamitestaff.github.io/R-workshops/Web_data_collection/scrap_leboncoin/projet_leboncoin.html

library(httr)
library(rvest)
library(tidyverse)
library(knitr) # Just to have nice tables in the html document... -> function 'kable'
# And for geocoding:
# devtools::install_github(repo = 'rCarto/photon')  
library(photon)

Gérer la lecture des pages leboncoin

Si vous essayez de lire une page dans Leboncoin en utilisant read_html()directement la fonction, vous obtiendrez probablement un message d'erreur 403, ce qui signifie que l'accès vous a été refusé. Envoyez une requête comme s'il s'agissait d'une requête régulière envoyée depuis votre navigateur .

Ouvrez votre navigateur Inspector -> allez dans l'onglet Réseau et eux allez sélectionner la partie de la réponse qui correspond à la partie html de la réponse. Ensuite, jetez un œil aux en-têtes envoyés avec votre requête. Nous allons utiliser 3 éléments d'information ici et les ajouter à notre requête :

Agent utilisateur
Accepter (formats acceptés pour la réponse)
Accept-Language (langues acceptées pour la réponse)

go_GET <- function(url){
  result=GET(url,
             add_headers(
               "User-Agent" = "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0",
               "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
               "Accept-Language"="fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3"))
  return(result)
}
go_GET("https://www.leboncoin.fr/ventes_immobilieres/offres/rhone_alpes/rhone/")

## Response [https://www.leboncoin.fr/ventes_immobilieres/offres/rhone_alpes/rhone/]
##   Date: 2018-09-28 14:44
##   Status: 200
##   Content-Type: text/html; charset=utf-8
##   Size: 503 kB
## <!DOCTYPE html>
## <html lang="fr">
## <head>
##  <meta charset="utf-8">
##  <meta http-equiv="x-ua-compatible" content="ie=edge">
##  <title data-react-helmet="true">Ventes immobilières, maisons à vendre R...
##  
##  <meta data-react-helmet="true" name="google-site-verification" content=...
## 
##  
## ...

Grattez toutes les annonces de la catégorie immobilier dans leboncoin

… pour l'instant, juste pour 1 département : Rhône.

Obtenir des liens vers toutes les annonces

Obtenez le nombre total d'annonces et déduisez le nombre de pages à gratter (35 annonces sont affichées par page).

url_base <- "https://www.leboncoin.fr/ventes_immobilieres/offres/rhone_alpes/rhone/"
url_base_raw <- go_GET(url_base)
html_base <- read_html(url_base_raw)

nb_links <- html_base  %>% 
  html_nodes("._2ilNG") %>%
  html_text() %>% 
  first() %>% 
  str_replace(" ","") %>% 
  as.numeric()
nb_pages=ceiling(nb_links/35)


pages=c(url_base,
        str_c(url_base,"p-",2:nb_pages))
pages[1:5]

## [1] "https://www.leboncoin.fr/ventes_immobilieres/offres/rhone_alpes/rhone/"   
## [2] "https://www.leboncoin.fr/ventes_immobilieres/offres/rhone_alpes/rhone/p-2"
## [3] "https://www.leboncoin.fr/ventes_immobilieres/offres/rhone_alpes/rhone/p-3"
## [4] "https://www.leboncoin.fr/ventes_immobilieres/offres/rhone_alpes/rhone/p-4"
## [5] "https://www.leboncoin.fr/ventes_immobilieres/offres/rhone_alpes/rhone/p-5"

Nous avons maintenant les URL de toutes les pages que nous devons gratter pour obtenir des liens vers toutes les annonces (vecteur pages).

Pour chaque page, obtenez un lien vers des annonces individuelles

Définition d'une fonction ads_by_page()qui prend une page listant des annonces en entrée et renvoie toutes les URL des annonces en sortie.

J'ai ajouté un temps d'attente aléatoire à chaque appel ads_by_page()de 1 à 5 secondes.

ads_by_page <- function(page){
  Sys.sleep(runif(1,1,5))
  my_html <- read_html(go_GET(page))
  links <- my_html %>%
      html_nodes(".clearfix") %>% 
      html_attr("href") %>% 
      na.omit()  
  tib <- tibble(urls=str_c("https://www.leboncoin.fr",links)) 
  return(tib)
}  
ads_by_page(pages[1])

## # A tibble: 35 x 1
##    urls                                                        
##    <chr>                                                       
##  1 https://www.leboncoin.fr/ventes_immobilieres/1498833165.htm/
##  2 https://www.leboncoin.fr/ventes_immobilieres/1487886414.htm/
##  3 https://www.leboncoin.fr/ventes_immobilieres/1469672965.htm/
##  4 https://www.leboncoin.fr/ventes_immobilieres/1497446180.htm/
##  5 https://www.leboncoin.fr/ventes_immobilieres/1498454616.htm/
##  6 https://www.leboncoin.fr/ventes_immobilieres/1498828413.htm/
##  7 https://www.leboncoin.fr/ventes_immobilieres/1412219839.htm/
##  8 https://www.leboncoin.fr/ventes_immobilieres/1497620632.htm/
##  9 https://www.leboncoin.fr/ventes_immobilieres/1498826837.htm/
## 10 https://www.leboncoin.fr/ventes_immobilieres/1417925822.htm/
## # ... with 25 more rows

Appliquez maintenant de manière itérative la fonction ads_by_page()à toutes les URL des pages répertoriées dans pages.

Et je ne l'ai pas fait en fait sur les 405 pages mais seulement sur 3 d'entre elles, pour vous montrer le principe !

tib_ads_urls <- map(pages[1:3],safely(ads_by_page)) %>%
  map("result") %>% 
  bind_rows()

Pour chaque annonce, obtenir des informations

Définir la fonction ad_info(), qui prend l'URL d'une annonce en entrée et renvoie, en sortie, un fichier contenant des informations concernant

url: les urls des annonces
title: leurs titres,
type: le type de bien
surface: la surface du bien
rooms: le nombre de pièces
GHG: Catégorie d'émission de gaz à effet de serre
energy_class: Catégorie de classe énergétique,
location: Localisation du bien

J'ai ajouté un temps d'attente aléatoire à chaque appel ad_info()de 1 à 5 secondes.

ad_info <- function(ad){
    Sys.sleep(runif(1,1,5))
    html_ad <- read_html(go_GET(ad))
    title <- html_ad %>% 
      html_nodes("._1KQme") %>% 
      html_text()
    criteria <- 
      tibble(name= html_ad %>% html_nodes("._3-hZF") %>% html_text(),
             value=html_ad %>% html_nodes("._3Jxf3") %>% html_text()) 
    f=function(x){if(length(x)==0){x=NA};return(x)}
    type    <- filter(criteria, name=="Type de bien")$value %>% f()
    surface <- filter(criteria, name=="Surface")$value %>%
      str_extract("^\\d*") %>% f()
    rooms   <- filter(criteria, str_detect(name,"Pi.ces"))$value %>% 
      as.numeric() %>% f()
   
    price <- html_ad %>% 
      html_nodes(".eVLNz") %>% 
      html_text() %>% 
      first() %>% 
      str_replace_all("[^0-9]","") %>% 
      as.numeric() 
    GHG <- html_ad %>% 
      html_nodes("._2BhIP") %>% 
      html_text() %>% 
      first()
    energy_class <-html_ad %>% 
      html_nodes("._15MMC") %>% 
      html_text() %>% 
      first()
    location <- html_ad %>% 
      html_nodes("._1aCZv") %>% 
      html_text() %>% 
      str_replace("Voir sur la carte","")
    ## Geocoding
    #
    #zipcode <- str_extract(location,"\\d+") 
    #city <- str_extract(location,"[A-Za-z- ]+")
    # url <- str_c("https://geocode.xyz/",zipcode,"+",city,"?json=1&region=FR")
    # raw_json <- GET(url)
    # geocode <- content(raw_json,as="parsed")
    # latitude <- geocode$latt
    # longitude <- geocode$longt
    coord_table=photon::geocode(location)
    latitude=coord_table$lat[1]
    longitude=coord_table$lon[1]
    tib_ad=bind_cols(urls=ad,
                     title=title,
                     price=price,
                     type=type,
                     surface=surface,
                     rooms=rooms,
                     GHG=GHG,
                     energy_class=energy_class,
                     location=location,
                     latitude=latitude,
                     longitude=longitude)
    return(tib_ad)
}
ad_info(tib_ads_urls$urls[1]) %>% kable()

URL	Titre	le prix	taper	surface	pièces	GES	classe_énergétique	emplacement	latitude	longitude
https://www.leboncoin.fr/ventes_immobilieres/1498833165.htm/	Terrain viabilisé 919m² Cailloux-sur-Fontaines	399000	Terrain	919	CE	CE	CE	Cailloux-sur-Fontaines 69270	45.85238	4.873766

Veuillez noter que si pendant le cours nous avions géocodé à l'aide de l'API geocode.xyz, cela n'était peut-être pas optimal pour le géocodage avec R. Ce choix était dû au fait que nous voulions vous montrer comment utiliser une API dans une requête directe . Vous pouvez également géocoder en utilisant d'autres API avec des clients API (voir par exemple function geocode()in package photon, qui est la solution que nous avons finalement utilisée dans ce document).

Appliquez maintenant cette fonction de manière itérativead_info() à toutes les annonces dans tib_ads_urls, en utilisant purrrl'itération.

En fait je ne l'ai pas fait sur toutes les annonces mais juste sur 20 d'entre elles pour vous montrer le principe !

tmp=Sys.time()
tib_ads <- map(tib_ads_urls$urls[1:20],
                  safely(ad_info)) %>% 
     map("result") %>% bind_rows()
time_for_20_ads <- Sys.time()-tmp
tib_ads %>% kable()

URL	Titre	le prix	taper	surface	pièces	GES	classe_énergétique	emplacement	latitude	longitude
https://www.leboncoin.fr/ventes_immobilieres/1498833165.htm/	Terrain viabilisé 919m² Cailloux-sur-Fontaines	399000	Terrain	919	CE	CE	CE	Cailloux-sur-Fontaines 69270	45.85238	4.873766
https://www.leboncoin.fr/ventes_immobilieres/1487886414.htm/	Appartement 4 pièces 70 m²	235000	Appartement	70	4	B	ET	Caluire-et-Cuire 69300	45.79700	4.842330
https://www.leboncoin.fr/ventes_immobilieres/1469672965.htm/	Maison 9 pièces 260 m²	590000	Maison	260	9	B	ET	Lentilly 69210	45.81792	4.663355
https://www.leboncoin.fr/ventes_immobilieres/1497446180.htm/	Maison de ville de 145m2 avec terrain	349900	Maison	145	5	B	ET	Villefranche-sur-Saône 69400	45.98647	4.726611
https://www.leboncoin.fr/ventes_immobilieres/1498454616.htm/	Maison à LUCENAY	200000	Maison	90	4	B	ET	69480 Lucenay	45.91208	4.701603
https://www.leboncoin.fr/ventes_immobilieres/1498828413.htm/	Appartement T3	159000	Appartement	70	3	B	ET	Villeurbanne 69100	45.77331	4.886934
https://www.leboncoin.fr/ventes_immobilieres/1412219839.htm/	T4 - Carré Ouest	338000	Appartement	85	4	CE	CE	Francheville 69340	45.73575	4.764730
https://www.leboncoin.fr/ventes_immobilieres/1497620632.htm/	Appartement 3 pièces 63 m²	298000	Appartement	63	3	B	ET	Lyon 69001	45.76777	4.836607
https://www.leboncoin.fr/ventes_immobilieres/1498826837.htm/	T2 lyon 9e	205000	Appartement	53	2	B	ET	Lyon 69009	45.78030	4.803430
https://www.leboncoin.fr/ventes_immobilieres/1417925822.htm/	Propriété 11 pièces 450 m²	895000	Maison	450	11	B	ET	Saint-Pierre-la-Palud 69210	45.78870	4.612964
https://www.leboncoin.fr/ventes_immobilieres/1454127092.htm/	Maison de village 2 pièces 112 m²	55000	Maison	112	2	CE	CE	Saint-Clément-les-Places 69930	45.75209	4.424050
https://www.leboncoin.fr/ventes_immobilieres/1495335959.htm/	Maison de village 3 pièces 53 m²	83000	Maison	53	3	CE	CE	Courzieu 69690	45.74263	4.571038
https://www.leboncoin.fr/ventes_immobilieres/1495336043.htm/	Appartement 3 pièces 50 m²	64000	Appartement	50	3	B	ET	Tarare 69170	45.89426	4.437137
https://www.leboncoin.fr/ventes_immobilieres/1493308695.htm/	T4 rez de jardin	382000	Appartement	86	4	B	ET	Lyon 69009	45.78030	4.803430
https://www.leboncoin.fr/ventes_immobilieres/1490785555.htm/	Dernière Opportunité	189000	Appartement	37	2	B	ET	Lyon 69005	45.76609	4.826979
https://www.leboncoin.fr/ventes_immobilieres/1490737572.htm/	T2 ideal investisseur ou premier aquisition	245000	Maison	41	2	B	ET	Lyon 69005	45.76609	4.826979
https://www.leboncoin.fr/ventes_immobilieres/1493272654.htm/	Rare t3 rez de jardin BORD DE SAONE	249700	Appartement	57	3	B	ET	Lyon 69009	45.78030	4.803430
https://www.leboncoin.fr/ventes_immobilieres/1493366641.htm/	T4 rez de jardin	370000	Appartement	80	4	B	ET	Villeurbanne 69100	45.77331	4.886934
https://www.leboncoin.fr/ventes_immobilieres/1495288729.htm/	T3 derniere opportunite Dernier étage	191585	Appartement	60	3	B	ET	Villeurbanne 69100	45.77331	4.886934
https://www.leboncoin.fr/ventes_immobilieres/1495183177.htm/	Studio Ideal investisseur	206000	Appartement	37	1	B	ET	Villeurbanne 69100	45.77331	4.886934

Pour 20 publicités, il nous a fallu environ 1,5 minute pour obtenir les données, donc si nous voulions faire cela sur toutes les publicités (~ 14 000 publicités), cela prendrait du temps (environ 18 heures…) !

Rechercher dans ce blog

2👌21/2/3/4/5

Web Scraping simple avec Google Sheets ➕ Scraping leboncoin

COLLECTER LES DONNÉES D’UN SITE EN 30 SECONDES AVEC GOOGLE SHEETS

Introduction

1 – La fonction IMPORTXML

2 – Les choses sérieuses commencent

Retrouvez tous les exemples de cet article en cliquant ici : http://bit.ly/2n4Kx5m
Rendez-vous à l’adresse sur Google Drive, connectez vous à l’aide de votre compte Google, et créez une nouvelle Sheets (bouton bleu “Nouveau » > Sheets en haut à gauche de l’écran).

3 – Allons plus loin

4 – Allons encore plus loin

5 – Repousser les limites

Web Scraping simple à l'aide de Google Sheets (mise à jour 2022)

Scraping leboncoin

Gérer la lecture des pages leboncoin

Grattez toutes les annonces de la catégorie immobilier dans leboncoin

Obtenir des liens vers toutes les annonces

Pour chaque page, obtenez un lien vers des annonces individuelles

Pour chaque annonce, obtenir des informations

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Liste Google Dorks et base de données mise à jour en 2022

Explication et listes de Google Dorks – Culte du code

13 endroits différents pour soumettre votre musique ! – Cymatics.fm

Comment créer un tunnel de vente rentable ?

code javascript et html qui Génère un bouton qui lorsque l'on clique dessus , choisit et affiche une phrases au hasard dans la liste

Utiliser chat GPT pour créer des fiches produits Amazon !

Promotion de la musique 2022 - Le guide complet

SiriGPT : Comment utiliser ChatGPT avec la voix sur iPhone ? - Jeanviet

Guide Vital Synth : 9 conseils pour en tirer le meilleur parti 🔥

GUIDE ULTIME de la création & monétisation d’un site 🔞

Web Scraping simple avec Google Sheets ➕ Scraping leboncoin

COLLECTER LES DONNÉES D’UN SITE EN 30 SECONDES AVEC GOOGLE SHEETS

Introduction

1 – La fonction IMPORTXML

2 – Les choses sérieuses commencent

Retrouvez tous les exemples de cet article en cliquant ici : http://bit.ly/2n4Kx5mRendez-vous à l’adresse sur Google Drive, connectez vous à l’aide de votre compte Google, et créez une nouvelle Sheets (bouton bleu “Nouveau » > Sheets en haut à gauche de l’écran).

3 – Allons plus loin

4 – Allons encore plus loin

5 – Repousser les limites

Web Scraping simple à l'aide de Google Sheets (mise à jour 2022)

Scraping leboncoin

Gérer la lecture des pages leboncoin

Grattez toutes les annonces de la catégorie immobilier dans leboncoin

Obtenir des liens vers toutes les annonces

Pour chaque page, obtenez un lien vers des annonces individuelles

Pour chaque annonce, obtenir des informations

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Retrouvez tous les exemples de cet article en cliquant ici : http://bit.ly/2n4Kx5m
Rendez-vous à l’adresse sur Google Drive, connectez vous à l’aide de votre compte Google, et créez une nouvelle Sheets (bouton bleu “Nouveau » > Sheets en haut à gauche de l’écran).