Le guide du débutant sur le grattage Web · Apify
Le guide du débutant sur le grattage Web
Lisez la suite pour découvrir ce qu'est le grattage Web, pourquoi vous devriez le faire et comment vous pouvez commencer !
Qu'est-ce que le grattage Web ?
Le grattage Web est le processus d'extraction automatique de données à partir de sites Web.
Toute page Web accessible au public peut être analysée et traitée pour extraire des informations – ou des données. Ces données peuvent ensuite être téléchargées ou stockées afin qu'elles puissent être utilisées à toute fin en dehors du site Web d'origine.
Quel est l'intérêt du grattage Web ?
Le Web est le plus grand référentiel de connaissances et de données dans l'histoire de l'humanité.
Mais cette information a été conçue pour être lue par des êtres humains, pas par des machines. Le scraping Web vous permet de créer des règles permettant aux ordinateurs d'accéder à ces données de manière efficace et lisible par machine.
Il est déjà impossible pour les humains de traiter ne serait-ce qu'une fraction des données sur le Web. C'est pourquoi le web scraping devient incontournable. Nous avons besoin de machines pour lire ces données pour nous afin que nous puissions les utiliser dans les affaires, la conservation, la protection des droits de l'homme, la lutte contre le crime et de nombreux projets pouvant bénéficier du type de données qu'Internet est si bon à accumuler.
Ignorer le potentiel du web scraping revient à ignorer le potentiel du web.
Le saviez-vous?
Selon la Banque mondiale/UIT, le nombre d'utilisateurs d'Internet dans le monde est passé de 3,5 milliards de personnes en 2017 à 4,2 milliards en 2019, augmentant de 8% par an (TCAC).
A quoi sert le web scraping ?
Le web scraping vous permet de collecter des données structurées. Les données structurées ne sont qu'un moyen de dire que les informations sont faciles à lire par les ordinateurs ou à ajouter à une base de données.
Au lieu de compter sur les humains pour lire ou traiter les pages Web, les ordinateurs peuvent rapidement utiliser ces données de nombreuses manières inattendues et utiles.
Pour illustrer la différence, imaginez combien de temps cela peut vous prendre pour copier et coller manuellement du texte à partir de 100 pages Web.
Une machine pourrait le faire en moins d'une seconde si vous lui donnez les bonnes instructions. Il peut également le faire à plusieurs reprises, inlassablement et à n'importe quelle échelle. Oubliez environ 100 pages. Un ordinateur peut traiter 1 000 000 de pages dans le temps qu'il vous faudrait pour n'ouvrir que les premières.
Le journal d'un robot d'indexation, qui ne prend qu'une fraction de seconde pour traiter une page Web
Le saviez-vous?
La majorité du trafic Internet est générée par des robots. 61,5% de tout le trafic du site Web est automatisé.
Avantages du scraping Web pour les entreprises
Le grattage Web vous donne accès à de nombreuses données.
Ces données peuvent être :
- chargé dans les bases de données
- ajouté aux feuilles de calcul
- utilisé dans les applications
- réutilisé de manière surprenante et inattendue
Découvrez comment les entreprises utilisent le web scraping pour améliorer leurs processus métier
Voici quelques-unes des façons dont le grattage Web peut aider votre entreprise à être plus efficace et rentable :
Suivi des prix
Soyez plus compétitif en suivant les prix de vos concurrents en temps réel et avec la possibilité d'ajuster vos propres prix à la volée. Vous pouvez même dire à vos propres clients ce que font vos concurrents afin qu'ils voient les avantages d'acheter chez vous à la place.
Génération de leads
Générez des prospects intelligents en récupérant les informations de contact accessibles au public et les profils de plateforme de médias sociaux pour trouver de nouveaux clients et des prospects commerciaux potentiels.
Agrégation de contenu
Agréger le contenu pour créer de nouvelles utilisations des données, faciliter la lecture des données ou ajouter de la valeur en informant les utilisateurs lorsque les prix ou le contenu changent.
Analyse de marché
Obtenez des informations sur le marché en récupérant des données sur votre entreprise, la demande des clients, les commentaires dans la nature, ou même en identifiant les opportunités dans le monde réel en analysant les changements et les tendances démographiques.
Référencement
Améliorez votre référencement en surveillant les mots-clés, la popularité et les tendances sur le Web.
Si vous souhaitez en savoir plus sur d'autres entreprises et industries qui utilisent le web scraping, consultez nos cas d'utilisation et nos réussites . Vous trouverez des exemples de la façon dont la surveillance des prix des détaillants , l'apprentissage automatique , la protection des droits d'auteur et même les mamans qui retournent au travail peuvent bénéficier du grattage Web.
Le grattage Web peut également profiter à l'humanité
Le grattage Web n'est pas seulement utilisé pour un gain financier. Des organisations du monde entier utilisent le web scraping pour aider .
Avantages du grattage Web
Vitesse
Le grattage Web est le moyen le plus rapide d'obtenir des données à partir de sites Web et cela signifie que vous n'avez pas à passer du temps à collecter manuellement ces données. En plus de cela, vous pouvez gratter plusieurs sites Web en même temps. Plus besoin de copier-coller de données. Vous configurez vos scrapers et ils collectent inlassablement et rapidement les données quand vous en avez besoin. Vous voulez extraire toutes les informations sur les prix et les listes de milliers de produits en quelques minutes ? Aucun problème.
Données à grande échelle
Les outils de grattage Web vous fournissent des données à un volume bien plus important que ce que vous ne pourriez jamais collecter manuellement. Les robots gagnent sur les humains à chaque fois que vous traitez d'énormes quantités d'informations. Les grattoirs vous fourniront des téraoctets de données en quelques secondes, triés, organisés et prêts à l'emploi. Il n'y a pas d'autre solution qui puisse fournir la quantité ahurissante de données que le grattage moderne rend possible.
Rentable
Vous pensez avoir besoin d'un système complexe à gratter ? Détrompez-vous ! Vous constaterez souvent qu'un simple grattoir peut faire le travail, vous n'avez donc pas besoin d'investir dans plus de personnel ou de vous soucier des coûts de développement. Les outils de grattage concernent l'automatisation de tâches répétitives, mais ces tâches ne sont souvent pas si compliquées. Mieux encore, vous n'aurez peut-être même pas besoin de créer ou de commander un nouveau grattoir, car il existe de nombreux outils prêts à l'emploi.
Modifiable et flexible
Les grattoirs sont encore plus économiques car ils sont entièrement personnalisables. Créez un grattoir pour une tâche et vous pouvez souvent l'adapter pour une tâche différente en n'apportant que de petits changements. Et ce ne sont pas des solutions codées en dur qui ne peuvent pas être modifiées à mesure que votre situation ou vos défis changent. Les robots de grattage sont des outils qui peuvent s'ajuster et s'adapter à votre flux de travail à mesure que vous grandissez.
Précis, fiable et robuste
Configurez correctement votre grattoir et il collectera avec précision des données directement à partir de sites Web, avec un très faible risque d'introduction d'erreurs. Les humains ne sont pas doués pour les tâches monotones et répétitives. Nous nous ennuyons, notre attention vagabonde et nous avons des limites à la vitesse à laquelle nous pouvons travailler. Les bots n'ont pas ces problèmes, donc si vous effectuez la configuration initiale correctement, vous pouvez être sûr que votre grattoir vous donnera des résultats fiables et précis aussi longtemps que vous en aurez besoin.
Faibles coûts d'entretien
Le coût de maintenance d'une solution de raclage est faible en raison de la flexibilité inhérente des racleurs. Les sites Web changent au fil du temps, avec de nouveaux designs, catégories et mises en page. Un grattoir doit être mis à jour afin qu'il puisse réagir à ces changements. Mais ces types de changements peuvent généralement être réglés en ajustant légèrement le grattoir. La maintenance d'un scraper peut consister simplement à modifier une seule variable ou à mettre à jour un seul champ, vous n'avez donc pas besoin de toute une équipe de développeurs pour maintenir vos scrapers opérationnels.
Livraison automatique de données structurées
Les ordinateurs aiment recevoir des informations structurées de manière à pouvoir les lire et les trier facilement. Cela signifie simplement que chaque donnée doit être organisée dans ce qui ressemblerait à une feuille de calcul pour nous, les humains. Les données supprimées arrivent par défaut dans un format lisible par une machine, de sorte que des valeurs simples peuvent souvent être immédiatement utilisées dans d'autres bases de données et programmes. Si vous configurez correctement votre solution de grattage, vous obtiendrez des données structurées qui fonctionneront de manière transparente avec d'autres outils.
Inconvénients du grattage Web
Le scraping Web a une courbe d'apprentissage
Il peut être intimidant de penser à la programmation nécessaire à la création d'un grattoir. Mais la plupart des entreprises qui utilisent des grattoirs n'ont pas besoin d'y penser, car il existe des solutions prêtes à l'emploi qui fonctionnent pour de nombreux cas d'utilisation différents. Bien sûr, si vous décidez de créer votre propre scraper à partir de zéro, cela peut prendre beaucoup de temps, mais il existe également d'excellentes communautés vers lesquelles vous pouvez vous tourner pour obtenir de l'aide, ainsi qu'une documentation complète pour vous guider.
Le web scraping a besoin d'un entretien perpétuel
Aucune solution de grattage Web ne peut être définie et oubliée pour toujours. Étant donné que votre scraper dépend d'un site Web externe, vous n'avez aucun contrôle sur le moment où ce site Web modifie sa structure ou son contenu, vous devez donc réagir si le scraper devient obsolète. Cela signifie porter une attention régulière à vos résultats et vous assurer que vos données restent pertinentes et exactes. La maintenance est peut-être une réalité pour les grattoirs Web, mais c'est une vérité inévitable à propos de la plupart des solutions qui vous apportent de la valeur.
L'extraction de données n'est pas la même que l'analyse de données
Il s'agit principalement de définir des attentes réalistes. Quelle que soit la qualité de l'outil de grattage que vous utilisez, il est conçu pour effectuer une tâche simple. Il collecte des données, les trie dans un format structuré et les transmet à votre ordinateur ou à votre base de données sans aucune perte de données. Les données arriveront dans un format structuré, mais des données plus complexes devront être traitées afin de pouvoir être utilisées dans d'autres programmes. Ce processus peut nécessiter beaucoup de ressources et de temps, vous devez donc vous y préparer si vous êtes confronté à un projet d'analyse de données volumineuses.
Les grattoirs peuvent être bloqués
Certains sites Web n'aiment tout simplement pas être grattés. Cela peut être dû au fait qu'ils pensent que les scrapers consomment leurs ressources, ou simplement parce qu'ils ne veulent pas que d'autres entreprises puissent facilement rivaliser avec eux. Dans certains cas, l'accès est bloqué en raison de l'origine du grattoir, de sorte qu'une demande provenant d'un pays ou d'une adresse IP en particulier n'est pas autorisée. Ce type de blocage IP est souvent résolu par l'utilisation de serveurs proxy ou en prenant des mesures pour empêcher les empreintes digitales du navigateur ou de l'appareil. Mais comme le grattage Web est devenu un outil plus répandu pour de nombreuses entreprises, les sites Web se méfient moins du grattage et diminuent une partie de leur résistance. Ainsi, même si un site Web a bloqué des scrapers dans le passé, cela peut changer avec le temps.
Le web scraping est-il légal ?
Le grattage Web n'est qu'un moyen d'obtenir des informations à partir de sites Web. Ces informations sont déjà accessibles au public sur Internet, mais elles sont fournies d'une manière optimisée pour les humains. Le grattage Web l'optimise simplement pour les machines. Le scraping Web n'est pas du piratage, et il n'est pas destiné à causer des problèmes aux sites Web qui sont scrapés.
Racler Web est légal, mais il ' est une question de ce que vous grattez et comment vous gratter. C'est comme prendre des photos avec votre téléphone. La plupart du temps, ce sera légal, mais prendre des photos d'une base militaire ou de documents confidentiels pourrait vous causer des ennuis. Le grattage Web est le même. Il n'y a aucune loi ou règle interdisant le grattage Web. Mais ce doesn ' t signifie que vous pouvez gratter tout.
Voici quelques bonnes règles à suivre lors de la création d'un grattoir :
- Évitez de gratter de grandes quantités de données personnelles à moins que vous ne connaissiez les règles.
- Don « t surcharger les serveurs du site Web que vous » re de grattage.
- Ne grattez que les informations accessibles au public.
- Don ' scrape t ou l' utilisation du contenu sous copyright.
Si vous voulez en savoir plus, consultez notre explication détaillée de ce que vous devez et shouldn « t éraflure, et comment vous pouvez créer des grattoirs éthiques, juridiques don » qui que ce soit de mal t ou violent les lois internationales sur les données ou la protection des droits d'auteur.
Comment fonctionne le Web ?
Avant de vous lancer dans le monde du grattage Web, il peut être utile de mieux comprendre le fonctionnement d'Internet et du Web.
L' Internet est né pendant la guerre froide dans les années 1960, mais le Web est née de nombreuses années plus tard , lorsque Sir Tim Berners-Lee a proposé un système hypertexte en réseau à son patron au CERN .
Cette idée a finalement conduit Berners-Lee à créer trois technologies importantes :
- Protocole de transfert hypertexte (HTTP) . Cela permet aux ordinateurs de récupérer des ressources liées sur le Web.
- Langage de balisage hypertexte (HTML) . Le langage de balisage du Web. Permet de formater le texte pour qu'il s'affiche correctement.
- Localisateur de ressources uniformes (URL) . Autrement connu sous le nom d'« adresse Web ». Utilisé pour identifier toutes les ressources sur le Web.
Mettez-les ensemble et vous obtenez les éléments essentiels de ce qui est finalement devenu le World Wide Web.
La décentralisation était fondamentale pour le Web initial tel qu'envisagé par Berners-Lee, tout comme la compatibilité universelle et la simplification du partage d'informations. Au fil du temps, des normes ont été établies grâce à un processus transparent et participatif par le World Wide Web Consortium (W3C) . Ces standards ouverts sont l'une des pierres angulaires qui ont permis au Web de se développer.
Berners-Lee croit toujours fermement qu'il est vital de « défendre et faire progresser le Web ouvert en tant que bien public et droit fondamental » et a créé la World Wide Web Foundation il y a un peu plus de dix ans pour assurer l'égalité numérique et la transparence pour tous.
Cette vision d'un Web ouvert est tout aussi importante aujourd'hui qu'elle l'était alors. Et rendre les données accessibles à tous fait partie du maintien du Web ouvert. C'est là qu'intervient le grattage Web.
Qu'est-ce qu'un navigateur Web ?
Vous utilisez un navigateur Web pour afficher cette page Web. Un navigateur Web n'est qu'un logiciel, ou un programme informatique, qui vous permet d'accéder, de visualiser et d'interagir avec des pages Web.
Le saviez-vous?
Vous pensez qu'Internet et le World Wide Web signifient la même chose ? Non, Internet est un réseau d'ordinateurs, tandis que le World Wide Web est un pont pour accéder et partager des informations à travers celui-ci.
Comment fonctionnent les navigateurs Web ?
Votre navigateur récupère des informations sur le Web et les affiche sur votre ordinateur ou appareil mobile.
Il utilise le protocole de transfert hypertexte (HTTP) pour récupérer le contenu des sites Web et le langage de balisage hypertexte (HTML) pour déterminer comment restituer le contenu.
Le résultat final est que vous voyez une page Web sur votre appareil et que vous pouvez interagir avec cette page Web. Sous-jacente à la page Web peut se trouver une multitude d'autres technologies, telles que HTML , CSS , JavaScript , etc.
Essayez vous-même
Vous pouvez facilement voir le code source d'un site Web :
- Ouvrez n'importe quelle page dans un navigateur sur un Mac ou un PC. Par exemple, vous pouvez ouvrir la page IMDb pour The Queen's Gambit .
- Cliquez ensuite avec le bouton droit de la souris et sélectionnez Inspecter en bas du menu.
- Le code qui a créé la page sera affiché.
Dans l'image ci-dessous :
- le site est affiché dans le panneau de gauche,
- au milieu se trouvent le code source (HTML et JavaScript),
- le panneau de droite montre le code utilisé pour styliser la page (Cascading Style Sheets, ou CSS).
Comment puis-je commencer le grattage Web ?
Nous constatons que le grattage Web fonctionne mieux si vous faites une pause et que vous vous posez ces trois questions avant de commencer à coder ou de commander une solution :
Quelles informations recherchez-vous ?
Quelles données voulez-vous obtenir ?
Où trouver les données ?
Quel est le site Web et quelle est l'URL ?
Que ferez-vous des données ?
Dans quel format en avez-vous besoin et comment devez-vous l'extraire ?
Une fois que vous avez répondu à ces questions, vous pouvez commencer à réfléchir à la manière dont vous allez récupérer les données que vous souhaitez.
Terminologie de base du grattage
Raclage Web
Le processus d'extraction automatique des données des sites Web. Également connu sous le nom de grattage d'écran, extraction de données Web, récolte Web.
Suppression de sites Web
C'est juste une faute de frappe très courante et facile à faire !
Exploration du Web
Les robots d'exploration Web sont des araignées ou des robots araignées qui parcourent systématiquement le Web et l'indexent. Les moteurs de recherche utilisent ces robots pour nous faciliter la recherche sur le Web.
Données structurées
Informations organisées et formatées de manière à être facilement lues et stockées par les ordinateurs dans des bases de données. Une feuille de calcul est un bon exemple de la façon dont les données peuvent être organisées de manière structurée.
Protocole de transfert hypertexte (HTTP)
Permet aux ordinateurs de récupérer des ressources liées sur le Web.
Langage de balisage hypertexte (HTML)
Le langage de balisage du Web. Permet de formater le texte pour qu'il s'affiche correctement.
Localisateur de ressources uniformes (URL)
Une « adresse Internet ». Utilisé pour identifier toutes les ressources sur le Web.
Feuilles de style en cascade (CSS)
Le langage de conception du Web. Il permet aux auteurs de pages Web de styliser le contenu et de contrôler la présentation sur l'ensemble d'un site Web.
JavaScript
Langage de programmation utilisé partout sur Internet pour contrôler le comportement des sites Web et permettre une interaction complexe entre l'utilisateur et la page Web.
adresse IP
Une adresse de protocole Internet est un numéro attribué à chaque appareil sur Internet. Ces numéros permettent aux appareils de communiquer entre eux.
Procuration
Un serveur proxy est un appareil qui sert d'intermédiaire entre d'autres appareils sur Internet. Les proxys sont couramment utilisés pour masquer l'emplacement géographique d'un appareil particulier, souvent pour des raisons de confidentialité.
Interface de programmation d'applications (API)
Une interface informatique qui permet à plusieurs applications différentes de communiquer entre elles. Une API fonctionne comme un ensemble de règles pour indiquer au logiciel quelles demandes ou instructions peuvent être échangées et comment les données doivent être transmises. Apify tire son nom de l'API 😉
Kit de développement logiciel (SDK)
Un package qui permet aux développeurs de créer des applications sur une plate-forme particulière. Un SDK peut inclure des bibliothèques de programmation, des API, des outils de débogage et des utilitaires conçus pour faciliter l'utilisation de la plate-forme par un développeur. Apify possède son propre SDK .
Quiz sur place
Quelle est la différence entre le grattage Web et l'exploration Web ?
Entreprises et outils de grattage Web
Vous voulez donc commencer le scraping Web, vous savez ce que vous voulez scraper et vous avez décidé d'explorer les différentes manières de commencer.
Il existe de nombreuses méthodes et entreprises impliquées dans le grattage Web. Pour vous aider à choisir, divisons le monde du grattage Web en quatre catégories différentes.
Sociétés de conseil aux entreprises
Ceux-ci fournissent des solutions haut de gamme « data-as-a-service » clés en main aux grandes entreprises. Ils effectueront du grattage à n'importe quelle échelle, mais à un prix.
Outils pointer-cliquer
Vous permet d'aller sur un site Web et de cliquer simplement sur les éléments que vous souhaitez gratter. Ceux-ci sont assez bons pour des cas d'utilisation simples, mais pas si bons pour des projets plus compliqués.
Exemples : Dexi .
Plateformes de programmation
A platform is designed for developers and offers a lot of flexibility. Instead of building the infrastructure for scraping, you use an existing system that was specifically designed for the task.
AI knowledge extractors
These companies take an AI approach and attempt to extract data from websites automatically. It works for standardized pages, but is not flexible enough to cover a variety of use cases.
Examples: DiffBot.
Read about the Top 10 free web scraping tools for data analysts.
Take a look at the other web scraping companies and tools you might have heard of on our Apify alternatives page.
You have plenty of options, but we believe that you should use Apify for your web scraping needs 😁
We’ve built a versatile and fast web scraping and automation platform that works for beginners, developers, and enterprise customers. Our goal from the outset was to create an organic ecosystem of scrapers and automation tools that would develop and grow with the needs of its users.
Read on to see why Apify has the best web scraping tools in the business.
Web scraping with Apify
Apify offers several different ways to scrape. You can start from scratch with your own solution, build upon existing tools, use ready-made tools, or get a solution created for you.
Enterprise solution
Les entreprises clientes peuvent commander une solution de scraping ou d'automatisation Web plus spécialisée à n'importe quelle échelle auprès d'un expert en données Apify dédié. Nous travaillerons avec vous jusqu'à l'achèvement du projet et pourrons continuer à assurer la maintenance une fois qu'il sera opérationnel.
Parlez-nous de votre projet
Vous pouvez utiliser ce formulaire ou cliquer sur la bulle de discussion en bas à droite de l'écran pour discuter avec un expert Apify !
Commandez une solution personnalisée
Développer vos propres scrapers Web ou robots d'automatisation Web peut prendre beaucoup de temps et d'efforts. Avec Apify, vous pouvez déléguer ce travail à des experts qui vous livreront une solution clé en main rien que pour vous.
Il est facile de demander une solution personnalisée avec Apify.
Utiliser un outil prêt à l'emploi
Apify Store propose des solutions existantes pour les sites populaires. C'est le moyen le plus rapide d'obtenir vos données car les outils sont déjà optimisés pour des cas d'utilisation particuliers. Nos outils sont conçus pour être simples, même pour ceux qui n'ont aucune expérience de codage et notre équipe d'assistance est toujours prête à vous aider.
Essayez vous-même
En ce qui concerne les outils prêts à l'emploi d'Apify, une grande partie du code de grattage Web dont vous avez besoin a déjà été écrite par un développeur. Il vous suffit donc de décider quelles informations vous souhaitez extraire. D'accord, il est temps pour un exemple concret, alors obtenons des données d'IMDb sur la récente série à succès de Netflix, The Queen's Gambit.
- Accédez au Scraper IMDb d'Apify et cliquez sur Essayer gratuitement .
- Remplissez l' URL de The Queen's Gambit dans le champ de saisie.
- Cliquez sur Enregistrer et exécuter .
Les données de sortie contiendront les informations suivantes sur chaque film ou série que vous avez répertorié dans le schéma d'entrée du scraper IMDb :
[
{
title: "The Queen's Gambit",
original title: "",
runtime: 395,
certificate: "TV-MA",
year: "",
rating: "8.6",
ratingcount: "250392",
description: "Orphaned at the tender age of nine, prodigious
introvert Beth Harmon discovers and masters the game of
chess in 1960s USA. But child stardom comes at a price.",
stars: "Anya Taylor-Joy, Chloe Pirrie, Bill Camp",
director: "",
genre: "Drama, Sport",
country: "USA",
url: "https: //www.imdb.com/title/tt10048342"
}
]
Codez-le vous-même
Vous pouvez utiliser nos grattoirs génériques et les personnaliser avec juste un peu de JavaScript. Ou vous pouvez utiliser Apify SDK pour créer votre propre solution de grattage.
Essayez vous-même
Essayons une version plus compliquée de notre exemple ci-dessus, où nous avons utilisé le grattoir IMDb d'Apify pour obtenir des informations sur The Queen's Gambit. Cette fois, nous allons utiliser un outil de grattage Web universel, le couteau suisse du grattage Web d'Apify, notre grattoir Web .
Suivez simplement les étapes et grattez la note de The Queen's Gambit sur IMDb.com avec votre propre grattoir alimenté par JavaScript.
- Inspectez la source de vos données, autrement dit ce lien (rappelez-vous qu'il vous suffit de faire un clic droit sur la page et de sélectionner « Inspecter » en bas du menu), et recherchez et sélectionnez les informations que vous souhaitez scraper. Pour notre exemple, le code ressemblera à ceci :
<span itemprop="ratingValue">8.6</span>
Créez une tâche pour Web Scraper sur la plateforme Apify en cliquant sur Essayer gratuitement .
Collez l'URL de la page IMDb de Queen's Gambit dans le champ URL de démarrage et remplacez le code dans le champ Fonction de la page par le code ci-dessous. Supprimez les champs Sélecteur de lien et Pseudo-URL .
async function pageFunction(context) { const $ = context.jQuery; return { url: context.request.url, rating: +$('[itemprop="ratingValue"]').text().trim(), ratingCount: +$('[itemprop="ratingCount"]').text().replace(/[^\d]+/g, '') || null, title: $('.title_wrapper h1').text().trim(), }; }
Cliquez sur Enregistrer et exécuter , puis vérifiez l'ensemble de données avec le résultat final.
{ url: "https: //www.imdb.com/title/tt10048342" rating: "8.6", ratingcount: "250392", title: "The Queen's Gambit", }
Astuce : pour une explication plus détaillée, consultez notre tutoriel complet pour ce grattoir.
Si vous ne pouvez toujours pas décider quelle option vous convient, lisez-en plus sur le choix de la bonne solution ou envoyez-nous simplement un e-mail à hello@apify.com pour obtenir des conseils d'experts gratuits sur votre cas d'utilisation.
Vous ne savez pas quelle solution de grattage Web vous convient ? Comparez les avantages d'utiliser Apify côte à côte avec ses alternatives pour vous aider à décider.
Apprendre le web scraping
Maintenant que vous connaissez les bases du grattage Web, vous voudrez peut-être approfondir le sujet. Pour vous faire gagner du temps, nous avons rassemblé quelques cours et tutoriels adaptés à tous les niveaux. Nous les recommandons comme un excellent moyen de se familiariser rapidement avec le grattage Web.
Cours pour débutants
Udemy propose un cours pour débutants pour vous initier au grattage Web en 60 minutes.
Pluralsight propose un cours sur le grattage Web avec Python pour les débutants plus expérimentés.
Coursera a un projet guidé sur le grattage avec Python et Beautiful Soup , pour les utilisateurs beaucoup plus avancés.
Guides pour débutants
Notre propre blog Apify contient des articles généraux pour vous inspirer, ainsi que plusieurs guides étape par étape pour gratter les sites Web populaires.
- Quelle est la différence entre le web scraping et le crawling ?
- Comment gratter n'importe quel site Web pour les débutants absolus.
- Comment gratter les pages Facebook .
- Scaping des emplacements de Google Maps .
Tutoriels vidéos
Comment scraper Amazon pour surveiller vos concurrents (web scraping).
Notifications de publication Scrape Medium : suivez toutes les réponses (automatisation des processus).
Comment mettre en place le monitoring de vos projets Apify (web scraping automation).
Monitoring : comment configurer la validation des données.
Les meilleurs conseils de grattage Web des développeurs Apify
Lecture technique intéressante sur notre blog
Ce sont les articles techniques les plus populaires sur le blog Apify .
Découvrez les techniques modernes de protection contre le grattage Web de Petr et comment les contourner. Grattez jusqu'à trois fois plus de pages en combinant la rotation des adresses IP avec l'émulation d'adresses IP partagées.
Utilisation d'un proxy man-in-the-middle pour extraire les données d'une API d'application mobile
Petr vous montrera comment configurer un proxy man-in-the-middle et installer un certificat auto-signé sur votre téléphone mobile afin d'intercepter la communication HTTPS entre n'importe quelle application mobile et son API backend.
Vous voulez créer vos propres grattoirs Web ?
Apprenez-en plus sur Apify et ce que nous faisons en lisant la documentation complète d' Apify . Familiarisez-vous avec la plateforme et obtenez tous les conseils techniques dont vous avez besoin de nos meilleurs développeurs.
Découvrez Apify SDK , la bibliothèque d'exploration et de grattage Web évolutive pour JavaScript/Node.js. Permet le développement de tâches d'extraction de données et d'automatisation Web avec Chrome sans tête, Puppeteer et Playwright.
Commentaires
Enregistrer un commentaire
🖐 Hello,
N'hésitez pas à commenter ou vous exprimer si vous avez des trucs à dire . . .👉