Le guide du débutant sur le grattage Web · Apify

Le guide du débutant sur le grattage Web · Apify




Le guide du débutant sur le grattage Web

Lisez la suite pour découvrir ce qu'est le grattage Web, pourquoi vous devriez le faire et comment vous pouvez commencer !

Qu'est-ce que le grattage Web ?

Le grattage Web est le processus d'extraction automatique de données à partir de sites Web.

Toute page Web accessible au public peut être analysée et traitée pour extraire des informations – ou des données. Ces données peuvent ensuite être téléchargées ou stockées afin qu'elles puissent être utilisées à toute fin en dehors du site Web d'origine.

Un diagramme expliquant ce qu'est le grattage Web.

Quel est l'intérêt du grattage Web ?

Le Web est le plus grand référentiel de connaissances et de données dans l'histoire de l'humanité.

Mais cette information a été conçue pour être lue par des êtres humains, pas par des machines. Le scraping Web vous permet de créer des règles permettant aux ordinateurs d'accéder à ces données de manière efficace et lisible par machine.

Il est déjà impossible pour les humains de traiter ne serait-ce qu'une fraction des données sur le Web. C'est pourquoi le web scraping devient incontournable. Nous avons besoin de machines pour lire ces données pour nous afin que nous puissions les utiliser dans les affaires, la conservation, la protection des droits de l'homme, la lutte contre le crime et de nombreux projets pouvant bénéficier du type de données qu'Internet est si bon à accumuler.

Ignorer le potentiel du web scraping revient à ignorer le potentiel du web.

Trafic de scraping Web

Le saviez-vous?

Selon la Banque mondiale/UIT, le nombre d'utilisateurs d'Internet dans le monde est passé de 3,5 milliards de personnes en 2017 à 4,2 milliards en 2019, augmentant de 8% par an (TCAC).

A quoi sert le web scraping ?

Le web scraping vous permet de collecter des données structurées. Les données structurées ne sont qu'un moyen de dire que les informations sont faciles à lire par les ordinateurs ou à ajouter à une base de données.

Au lieu de compter sur les humains pour lire ou traiter les pages Web, les ordinateurs peuvent rapidement utiliser ces données de nombreuses manières inattendues et utiles.

Pour illustrer la différence, imaginez combien de temps cela peut vous prendre pour copier et coller manuellement du texte à partir de 100 pages Web.

Une machine pourrait le faire en moins d'une seconde si vous lui donnez les bonnes instructions. Il peut également le faire à plusieurs reprises, inlassablement et à n'importe quelle échelle. Oubliez environ 100 pages. Un ordinateur peut traiter 1 000 000 de pages dans le temps qu'il vous faudrait pour n'ouvrir que les premières.

Le journal d'un robot d'indexation, qui ne prend qu'une fraction de seconde pour traiter une page Web

Le journal d'un robot d'indexation, qui ne prend qu'une fraction de seconde pour traiter une page Web

Le saviez-vous?

La majorité du trafic Internet est générée par des robots. 61,5% de tout le trafic du site Web est automatisé.

Avantages du scraping Web pour les entreprises

Le grattage Web vous donne accès à de nombreuses données.

Ces données peuvent être :

  • chargé dans les bases de données
  • ajouté aux feuilles de calcul
  • utilisé dans les applications
  • réutilisé de manière surprenante et inattendue

Découvrez comment les entreprises utilisent le web scraping pour améliorer leurs processus métier

Trafic de scraping Web

Voici quelques-unes des façons dont le grattage Web peut aider votre entreprise à être plus efficace et rentable :

  1. Suivi des prix

    Suivi des prix

    Soyez plus compétitif en suivant les prix de vos concurrents en temps réel et avec la possibilité d'ajuster vos propres prix à la volée. Vous pouvez même dire à vos propres clients ce que font vos concurrents afin qu'ils voient les avantages d'acheter chez vous à la place.

  2. Génération de leads

    Générez des prospects intelligents en récupérant les informations de contact accessibles au public et les profils de plateforme de médias sociaux pour trouver de nouveaux clients et des prospects commerciaux potentiels.

    Génération de leads
  3. Génération de leads

    Agrégation de contenu

    Agréger le contenu pour créer de nouvelles utilisations des données, faciliter la lecture des données ou ajouter de la valeur en informant les utilisateurs lorsque les prix ou le contenu changent.

  4. Analyse de marché

    Obtenez des informations sur le marché en récupérant des données sur votre entreprise, la demande des clients, les commentaires dans la nature, ou même en identifiant les opportunités dans le monde réel en analysant les changements et les tendances démographiques.

    Obtenez des informations sur le marché
  5. Référencement

    Référencement

    Améliorez votre référencement en surveillant les mots-clés, la popularité et les tendances sur le Web.

Si vous souhaitez en savoir plus sur d'autres entreprises et industries qui utilisent le web scraping, consultez nos cas d'utilisation et nos réussites . Vous trouverez des exemples de la façon dont la surveillance des prix des détaillants , l'apprentissage automatique , la protection des droits d'auteur et même les mamans qui retournent au travail peuvent bénéficier du grattage Web.

Le grattage Web peut également profiter à l'humanité

Le grattage Web n'est pas seulement utilisé pour un gain financier. Des organisations du monde entier utilisent le web scraping pour aider .


Avantages du grattage Web

  • Vitesse

    Le grattage Web est le moyen le plus rapide d'obtenir des données à partir de sites Web et cela signifie que vous n'avez pas à passer du temps à collecter manuellement ces données. En plus de cela, vous pouvez gratter plusieurs sites Web en même temps. Plus besoin de copier-coller de données. Vous configurez vos scrapers et ils collectent inlassablement et rapidement les données quand vous en avez besoin. Vous voulez extraire toutes les informations sur les prix et les listes de milliers de produits en quelques minutes ? Aucun problème.

  • Données à grande échelle

    Les outils de grattage Web vous fournissent des données à un volume bien plus important que ce que vous ne pourriez jamais collecter manuellement. Les robots gagnent sur les humains à chaque fois que vous traitez d'énormes quantités d'informations. Les grattoirs vous fourniront des téraoctets de données en quelques secondes, triés, organisés et prêts à l'emploi. Il n'y a pas d'autre solution qui puisse fournir la quantité ahurissante de données que le grattage moderne rend possible.

  • Rentable

    Vous pensez avoir besoin d'un système complexe à gratter ? Détrompez-vous ! Vous constaterez souvent qu'un simple grattoir peut faire le travail, vous n'avez donc pas besoin d'investir dans plus de personnel ou de vous soucier des coûts de développement. Les outils de grattage concernent l'automatisation de tâches répétitives, mais ces tâches ne sont souvent pas si compliquées. Mieux encore, vous n'aurez peut-être même pas besoin de créer ou de commander un nouveau grattoir, car il existe de nombreux outils prêts à l'emploi.

  • Modifiable et flexible

    Les grattoirs sont encore plus économiques car ils sont entièrement personnalisables. Créez un grattoir pour une tâche et vous pouvez souvent l'adapter pour une tâche différente en n'apportant que de petits changements. Et ce ne sont pas des solutions codées en dur qui ne peuvent pas être modifiées à mesure que votre situation ou vos défis changent. Les robots de grattage sont des outils qui peuvent s'ajuster et s'adapter à votre flux de travail à mesure que vous grandissez.

  • Précis, fiable et robuste

    Configurez correctement votre grattoir et il collectera avec précision des données directement à partir de sites Web, avec un très faible risque d'introduction d'erreurs. Les humains ne sont pas doués pour les tâches monotones et répétitives. Nous nous ennuyons, notre attention vagabonde et nous avons des limites à la vitesse à laquelle nous pouvons travailler. Les bots n'ont pas ces problèmes, donc si vous effectuez la configuration initiale correctement, vous pouvez être sûr que votre grattoir vous donnera des résultats fiables et précis aussi longtemps que vous en aurez besoin.

  • Faibles coûts d'entretien

    Le coût de maintenance d'une solution de raclage est faible en raison de la flexibilité inhérente des racleurs. Les sites Web changent au fil du temps, avec de nouveaux designs, catégories et mises en page. Un grattoir doit être mis à jour afin qu'il puisse réagir à ces changements. Mais ces types de changements peuvent généralement être réglés en ajustant légèrement le grattoir. La maintenance d'un scraper peut consister simplement à modifier une seule variable ou à mettre à jour un seul champ, vous n'avez donc pas besoin de toute une équipe de développeurs pour maintenir vos scrapers opérationnels.

  • Livraison automatique de données structurées

    Les ordinateurs aiment recevoir des informations structurées de manière à pouvoir les lire et les trier facilement. Cela signifie simplement que chaque donnée doit être organisée dans ce qui ressemblerait à une feuille de calcul pour nous, les humains. Les données supprimées arrivent par défaut dans un format lisible par une machine, de sorte que des valeurs simples peuvent souvent être immédiatement utilisées dans d'autres bases de données et programmes. Si vous configurez correctement votre solution de grattage, vous obtiendrez des données structurées qui fonctionneront de manière transparente avec d'autres outils.

Inconvénients du grattage Web

  • Le scraping Web a une courbe d'apprentissage

    Il peut être intimidant de penser à la programmation nécessaire à la création d'un grattoir. Mais la plupart des entreprises qui utilisent des grattoirs n'ont pas besoin d'y penser, car il existe des solutions prêtes à l'emploi qui fonctionnent pour de nombreux cas d'utilisation différents. Bien sûr, si vous décidez de créer votre propre scraper à partir de zéro, cela peut prendre beaucoup de temps, mais il existe également d'excellentes communautés vers lesquelles vous pouvez vous tourner pour obtenir de l'aide, ainsi qu'une documentation complète pour vous guider.

  • Le web scraping a besoin d'un entretien perpétuel

    Aucune solution de grattage Web ne peut être définie et oubliée pour toujours. Étant donné que votre scraper dépend d'un site Web externe, vous n'avez aucun contrôle sur le moment où ce site Web modifie sa structure ou son contenu, vous devez donc réagir si le scraper devient obsolète. Cela signifie porter une attention régulière à vos résultats et vous assurer que vos données restent pertinentes et exactes. La maintenance est peut-être une réalité pour les grattoirs Web, mais c'est une vérité inévitable à propos de la plupart des solutions qui vous apportent de la valeur.

  • L'extraction de données n'est pas la même que l'analyse de données

    Il s'agit principalement de définir des attentes réalistes. Quelle que soit la qualité de l'outil de grattage que vous utilisez, il est conçu pour effectuer une tâche simple. Il collecte des données, les trie dans un format structuré et les transmet à votre ordinateur ou à votre base de données sans aucune perte de données. Les données arriveront dans un format structuré, mais des données plus complexes devront être traitées afin de pouvoir être utilisées dans d'autres programmes. Ce processus peut nécessiter beaucoup de ressources et de temps, vous devez donc vous y préparer si vous êtes confronté à un projet d'analyse de données volumineuses.

  • Les grattoirs peuvent être bloqués

    Certains sites Web n'aiment tout simplement pas être grattés. Cela peut être dû au fait qu'ils pensent que les scrapers consomment leurs ressources, ou simplement parce qu'ils ne veulent pas que d'autres entreprises puissent facilement rivaliser avec eux. Dans certains cas, l'accès est bloqué en raison de l'origine du grattoir, de sorte qu'une demande provenant d'un pays ou d'une adresse IP en particulier n'est pas autorisée. Ce type de blocage IP est souvent résolu par l'utilisation de serveurs proxy ou en prenant des mesures pour empêcher les empreintes digitales du navigateur ou de l'appareil. Mais comme le grattage Web est devenu un outil plus répandu pour de nombreuses entreprises, les sites Web se méfient moins du grattage et diminuent une partie de leur résistance. Ainsi, même si un site Web a bloqué des scrapers dans le passé, cela peut changer avec le temps.

Le grattage Web est-il légal

Le grattage Web n'est qu'un moyen d'obtenir des informations à partir de sites Web. Ces informations sont déjà accessibles au public sur Internet, mais elles sont fournies d'une manière optimisée pour les humains. Le grattage Web l'optimise simplement pour les machines. Le scraping Web n'est pas du piratage, et il n'est pas destiné à causer des problèmes aux sites Web qui sont scrapés.

Racler Web est légal, mais il est une question de ce que vous grattez et comment vous gratter. C'est comme prendre des photos avec votre téléphone. La plupart du temps, ce sera légal, mais prendre des photos d'une base militaire ou de documents confidentiels pourrait vous causer des ennuis. Le grattage Web est le même. Il n'y a aucune loi ou règle interdisant le grattage Web. Mais ce doesn t signifie que vous pouvez gratter tout.

Voici quelques bonnes règles à suivre lors de la création d'un grattoir :

  • Évitez de gratter de grandes quantités de données personnelles à moins que vous ne connaissiez les règles.
  • Don « t surcharger les serveurs du site Web que vous » re de grattage.
  • Ne grattez que les informations accessibles au public.
  • Don scrape t ou l' utilisation du contenu sous copyright.

Si vous voulez en savoir plus, consultez notre explication détaillée de ce que vous devez et shouldn « t éraflure, et comment vous pouvez créer des grattoirs éthiques, juridiques don » qui que ce soit de mal t ou violent les lois internationales sur les données ou la protection des droits d'auteur.

Comment fonctionne le Web ?

Avant de vous lancer dans le monde du grattage Web, il peut être utile de mieux comprendre le fonctionnement d'Internet et du Web.

L' Internet est né pendant la guerre froide dans les années 1960, mais le Web est née de nombreuses années plus tard , lorsque Sir Tim Berners-Lee a proposé un système hypertexte en réseau à son patron au CERN .

Cette idée a finalement conduit Berners-Lee à créer trois technologies importantes :

Un schéma expliquant le fonctionnement du World Wide Web.

Mettez-les ensemble et vous obtenez les éléments essentiels de ce qui est finalement devenu le World Wide Web.

La décentralisation était fondamentale pour le Web initial tel qu'envisagé par Berners-Lee, tout comme la compatibilité universelle et la simplification du partage d'informations. Au fil du temps, des normes ont été établies grâce à un processus transparent et participatif par le World Wide Web Consortium (W3C) . Ces standards ouverts sont l'une des pierres angulaires qui ont permis au Web de se développer.

Berners-Lee croit toujours fermement qu'il est vital de « défendre et faire progresser le Web ouvert en tant que bien public et droit fondamental » et a créé la World Wide Web Foundation il y a un peu plus de dix ans pour assurer l'égalité numérique et la transparence pour tous.

Cette vision d'un Web ouvert est tout aussi importante aujourd'hui qu'elle l'était alors. Et rendre les données accessibles à tous fait partie du maintien du Web ouvert. C'est là qu'intervient le grattage Web.

Qu'est-ce qu'un navigateur Web ?

Le grattage Web est-il légal

Vous utilisez un navigateur Web pour afficher cette page Web. Un navigateur Web n'est qu'un logiciel, ou un programme informatique, qui vous permet d'accéder, de visualiser et d'interagir avec des pages Web.

Le saviez-vous?

Vous pensez qu'Internet et le World Wide Web signifient la même chose ? Non, Internet est un réseau d'ordinateurs, tandis que le World Wide Web est un pont pour accéder et partager des informations à travers celui-ci.

Comment fonctionnent les navigateurs Web ?

Votre navigateur récupère des informations sur le Web et les affiche sur votre ordinateur ou appareil mobile.

Il utilise le protocole de transfert hypertexte (HTTP) pour récupérer le contenu des sites Web et le langage de balisage hypertexte (HTML) pour déterminer comment restituer le contenu.

Le résultat final est que vous voyez une page Web sur votre appareil et que vous pouvez interagir avec cette page Web. Sous-jacente à la page Web peut se trouver une multitude d'autres technologies, telles que HTML , CSS , JavaScript , etc.

Essayez vous-même

Vous pouvez facilement voir le code source d'un site Web :

  1. Ouvrez n'importe quelle page dans un navigateur sur un Mac ou un PC. Par exemple, vous pouvez ouvrir la page IMDb pour The Queen's Gambit .
  2. Cliquez ensuite avec le bouton droit de la souris et sélectionnez Inspecter en bas du menu.
  3. Le code qui a créé la page sera affiché.

Dans l'image ci-dessous :

  • le site est affiché dans le panneau de gauche,
  • au milieu se trouvent le code source (HTML et JavaScript),
  • le panneau de droite montre le code utilisé pour styliser la page (Cascading Style Sheets, ou CSS).
Un exemple d'outils de développement de navigateur

Comment puis-je commencer le grattage Web ?

Nous constatons que le grattage Web fonctionne mieux si vous faites une pause et que vous vous posez ces trois questions avant de commencer à coder ou de commander une solution :

1

Quelles informations recherchez-vous ?

Quelles données voulez-vous obtenir ?

2

Où trouver les données ?

Quel est le site Web et quelle est l'URL ?

3

Que ferez-vous des données ?

Dans quel format en avez-vous besoin et comment devez-vous l'extraire ?

Une fois que vous avez répondu à ces questions, vous pouvez commencer à réfléchir à la manière dont vous allez récupérer les données que vous souhaitez.

Terminologie de base du grattage

Raclage Web

Le processus d'extraction automatique des données des sites Web. Également connu sous le nom de grattage d'écran, extraction de données Web, récolte Web.

Suppression de sites Web

C'est juste une faute de frappe très courante et facile à faire !

Exploration du Web

Les robots d'exploration Web sont des araignées ou des robots araignées qui parcourent systématiquement le Web et l'indexent. Les moteurs de recherche utilisent ces robots pour nous faciliter la recherche sur le Web.

Données structurées

Informations organisées et formatées de manière à être facilement lues et stockées par les ordinateurs dans des bases de données. Une feuille de calcul est un bon exemple de la façon dont les données peuvent être organisées de manière structurée.

Protocole de transfert hypertexte (HTTP)

Permet aux ordinateurs de récupérer des ressources liées sur le Web.

Langage de balisage hypertexte (HTML)

Le langage de balisage du Web. Permet de formater le texte pour qu'il s'affiche correctement.

Localisateur de ressources uniformes (URL)

Une « adresse Internet ». Utilisé pour identifier toutes les ressources sur le Web.

Feuilles de style en cascade (CSS)

Le langage de conception du Web. Il permet aux auteurs de pages Web de styliser le contenu et de contrôler la présentation sur l'ensemble d'un site Web.

JavaScript

Langage de programmation utilisé partout sur Internet pour contrôler le comportement des sites Web et permettre une interaction complexe entre l'utilisateur et la page Web.

adresse IP

Une adresse de protocole Internet est un numéro attribué à chaque appareil sur Internet. Ces numéros permettent aux appareils de communiquer entre eux.

Procuration

Un serveur proxy est un appareil qui sert d'intermédiaire entre d'autres appareils sur Internet. Les proxys sont couramment utilisés pour masquer l'emplacement géographique d'un appareil particulier, souvent pour des raisons de confidentialité.

Interface de programmation d'applications (API)

Une interface informatique qui permet à plusieurs applications différentes de communiquer entre elles. Une API fonctionne comme un ensemble de règles pour indiquer au logiciel quelles demandes ou instructions peuvent être échangées et comment les données doivent être transmises. Apify tire son nom de l'API 😉

Kit de développement logiciel (SDK)

Un package qui permet aux développeurs de créer des applications sur une plate-forme particulière. Un SDK peut inclure des bibliothèques de programmation, des API, des outils de débogage et des utilitaires conçus pour faciliter l'utilisation de la plate-forme par un développeur. Apify possède son propre SDK .

Quiz sur place

Quelle est la différence entre le grattage Web et l'exploration Web ?

Entreprises et outils de grattage Web

Vous voulez donc commencer le scraping Web, vous savez ce que vous voulez scraper et vous avez décidé d'explorer les différentes manières de commencer.

Il existe de nombreuses méthodes et entreprises impliquées dans le grattage Web. Pour vous aider à choisir, divisons le monde du grattage Web en quatre catégories différentes.

Sociétés de conseil aux entreprises

Ceux-ci fournissent des solutions haut de gamme « data-as-a-service » clés en main aux grandes entreprises. Ils effectueront du grattage à n'importe quelle échelle, mais à un prix.

Exemples : Import.io , Mozenda , Apify .

Outils pointer-cliquer

Vous permet d'aller sur un site Web et de cliquer simplement sur les éléments que vous souhaitez gratter. Ceux-ci sont assez bons pour des cas d'utilisation simples, mais pas si bons pour des projets plus compliqués.

Exemples : Dexi .

Plateformes de programmation

A platform is designed for developers and offers a lot of flexibility. Instead of building the infrastructure for scraping, you use an existing system that was specifically designed for the task.

Examples: ZyteApify.

AI knowledge extractors

These companies take an AI approach and attempt to extract data from websites automatically. It works for standardized pages, but is not flexible enough to cover a variety of use cases.

Examples: DiffBot.

Read about the Top 10 free web scraping tools for data analysts.

Take a look at the other web scraping companies and tools you might have heard of on our Apify alternatives page.

You have plenty of options, but we believe that you should use Apify for your web scraping needs 😁

We’ve built a versatile and fast web scraping and automation platform that works for beginners, developers, and enterprise customers. Our goal from the outset was to create an organic ecosystem of scrapers and automation tools that would develop and grow with the needs of its users.

Read on to see why Apify has the best web scraping tools in the business.

Web scraping with Apify

Apify offers several different ways to scrape. You can start from scratch with your own solution, build upon existing tools, use ready-made tools, or get a solution created for you.

Une introduction au grattage Web
Solutions pour entreprise

Enterprise solution

Les entreprises clientes peuvent commander une solution de scraping ou d'automatisation Web plus spécialisée à n'importe quelle échelle auprès d'un expert en données Apify dédié. Nous travaillerons avec vous jusqu'à l'achèvement du projet et pourrons continuer à assurer la maintenance une fois qu'il sera opérationnel.

Parlez-nous de votre projet

Vous pouvez utiliser ce formulaire ou cliquer sur la bulle de discussion en bas à droite de l'écran pour discuter avec un expert Apify !

Solutions personnalisées

Commandez une solution personnalisée

Développer vos propres scrapers Web ou robots d'automatisation Web peut prendre beaucoup de temps et d'efforts. Avec Apify, vous pouvez déléguer ce travail à des experts qui vous livreront une solution clé en main rien que pour vous.

Il est facile de demander une solution personnalisée avec Apify.

Remplissez simplement le formulaire

Des solutions pour tous

Utiliser un outil prêt à l'emploi

Apify Store propose des solutions existantes pour les sites populaires. C'est le moyen le plus rapide d'obtenir vos données car les outils sont déjà optimisés pour des cas d'utilisation particuliers. Nos outils sont conçus pour être simples, même pour ceux qui n'ont aucune expérience de codage et notre équipe d'assistance est toujours prête à vous aider.

Essayez vous-même

En ce qui concerne les outils prêts à l'emploi d'Apify, une grande partie du code de grattage Web dont vous avez besoin a déjà été écrite par un développeur. Il vous suffit donc de décider quelles informations vous souhaitez extraire. D'accord, il est temps pour un exemple concret, alors obtenons des données d'IMDb sur la récente série à succès de Netflix, The Queen's Gambit.

  1. Accédez au Scraper IMDb d'Apify et cliquez sur Essayer gratuitement .
  2. Remplissez l' URL de The Queen's Gambit dans le champ de saisie.
  3. Cliquez sur Enregistrer et exécuter .

Les données de sortie contiendront les informations suivantes sur chaque film ou série que vous avez répertorié dans le schéma d'entrée du scraper IMDb :

[
  {
    title: "The Queen's Gambit",
    original title: "",
    runtime: 395,
    certificate: "TV-MA",
    year: "",
    rating: "8.6",
    ratingcount: "250392",
    description: "Orphaned at the tender age of nine, prodigious
    introvert Beth Harmon discovers and masters the game of
    chess in 1960s USA. But child stardom comes at a price.",
    stars: "Anya Taylor-Joy, Chloe Pirrie, Bill Camp",
    director: "",
    genre: "Drama, Sport",
    country: "USA",
    url: "https: //www.imdb.com/title/tt10048342"
  }
]
Créez vos propres outils à l'aide du SDK Apify

Codez-le vous-même

Vous pouvez utiliser nos grattoirs génériques et les personnaliser avec juste un peu de JavaScript. Ou vous pouvez utiliser Apify SDK pour créer votre propre solution de grattage.

Essayez vous-même

Essayons une version plus compliquée de notre exemple ci-dessus, où nous avons utilisé le grattoir IMDb d'Apify pour obtenir des informations sur The Queen's Gambit. Cette fois, nous allons utiliser un outil de grattage Web universel, le couteau suisse du grattage Web d'Apify, notre grattoir Web .

Suivez simplement les étapes et grattez la note de The Queen's Gambit sur IMDb.com avec votre propre grattoir alimenté par JavaScript.

  1. Inspectez la source de vos données, autrement dit ce lien (rappelez-vous qu'il vous suffit de faire un clic droit sur la page et de sélectionner « Inspecter » en bas du menu), et recherchez et sélectionnez les informations que vous souhaitez scraper. Pour notre exemple, le code ressemblera à ceci :
    <span itemprop="ratingValue">8.6</span>
    Instructions pour sélectionner un élément à l'aide des outils de développement d'un navigateur
  2. Créez une tâche pour Web Scraper sur la plateforme Apify en cliquant sur Essayer gratuitement .

    Créer une nouvelle tâche pour le grattoir Web d'Apify
  3. Collez l'URL de la page IMDb de Queen's Gambit dans le champ URL de démarrage et remplacez le code dans le champ Fonction de la page par le code ci-dessous. Supprimez les champs Sélecteur de lien et Pseudo-URL .

    Configurer une tâche Web Scraper pour scraper IMDb
    async function pageFunction(context) {
      const $ = context.jQuery;
      return {
        url: context.request.url,
        rating: +$('[itemprop="ratingValue"]').text().trim(),
        ratingCount: +$('[itemprop="ratingCount"]').text().replace(/[^\d]+/g, '') || null,
        title: $('.title_wrapper h1').text().trim(),
      };
    }
  4. Cliquez sur Enregistrer et exécuter , puis vérifiez l'ensemble de données avec le résultat final.

    {
      url: "https: //www.imdb.com/title/tt10048342"
      rating: "8.6",
      ratingcount: "250392",
      title: "The Queen's Gambit",
    }
  5. Astuce : pour une explication plus détaillée, consultez notre tutoriel complet pour ce grattoir.

    Si vous ne pouvez toujours pas décider quelle option vous convient, lisez-en plus sur le choix de la bonne solution ou envoyez-nous simplement un e-mail à hello@apify.com pour obtenir des conseils d'experts gratuits sur votre cas d'utilisation.

    Vous ne savez pas quelle solution de grattage Web vous convient ? Comparez les avantages d'utiliser Apify côte à côte avec ses alternatives pour vous aider à décider.

Apprendre le web scraping

Apprendre le web scraping

Maintenant que vous connaissez les bases du grattage Web, vous voudrez peut-être approfondir le sujet. Pour vous faire gagner du temps, nous avons rassemblé quelques cours et tutoriels adaptés à tous les niveaux. Nous les recommandons comme un excellent moyen de se familiariser rapidement avec le grattage Web.

Cours pour débutants

Udemy propose un cours pour débutants pour vous initier au grattage Web en 60 minutes.

Pluralsight propose un cours sur le grattage Web avec Python pour les débutants plus expérimentés.

Coursera a un projet guidé sur le grattage avec Python et Beautiful Soup , pour les utilisateurs beaucoup plus avancés.

Guides pour débutants

Notre propre blog Apify contient des articles généraux pour vous inspirer, ainsi que plusieurs guides étape par étape pour gratter les sites Web populaires.

Tutoriels vidéos

Comment scraper Amazon pour surveiller vos concurrents (web scraping).

Tutoriel vidéo pour scraper Amazon.com.

Notifications de publication Scrape Medium : suivez toutes les réponses (automatisation des processus).

Tutoriel vidéo pour gratter les notifications sur vos publications Medium.

Comment mettre en place le monitoring de vos projets Apify (web scraping automation).

Tutoriel vidéo pour configurer Monitoring pour vos projets Apify.

Monitoring : comment configurer la validation des données.

Tutoriel vidéo pour la mise en place de la validation des données dans le monitoring.

Les meilleurs conseils de grattage Web des développeurs Apify

Vaclav

Vaclav

Développeur Apify

« N'essayez pas toujours de rendre votre grattoir aussi rapide que possible - vous pourriez casser le site Web ! Vérifiez toujours le comportement du site Web sous une charge importante avant d'utiliser votre grattoir à grande échelle.

Lecture technique intéressante sur notre blog

Ce sont les articles techniques les plus populaires sur le blog Apify .

En savoir plus sur les techniques modernes de protection contre le grattage Web

Contourner la protection contre le web scraping : tirez le meilleur parti de vos proxys avec l'émulation d'adresse IP partagée

Découvrez les techniques modernes de protection contre le grattage Web de Petr et comment les contourner. Grattez jusqu'à trois fois plus de pages en combinant la rotation des adresses IP avec l'émulation d'adresses IP partagées.

Déboguer une boucle infinie dans le code de production node.js

Utilisation d'un proxy man-in-the-middle pour extraire les données d'une API d'application mobile

Petr vous montrera comment configurer un proxy man-in-the-middle et installer un certificat auto-signé sur votre téléphone mobile afin d'intercepter la communication HTTPS entre n'importe quelle application mobile et son API backend.

Vous voulez créer vos propres grattoirs Web ?

Consultez notre documentation si vous souhaitez construire vos propres grattoirs

Apprenez-en plus sur Apify et ce que nous faisons en lisant la documentation complète d' Apify . Familiarisez-vous avec la plateforme et obtenez tous les conseils techniques dont vous avez besoin de nos meilleurs développeurs.

Le SDK Apify fournit un cadre et des tutoriels pour créer vos propres acteurs

Découvrez Apify SDK , la bibliothèque d'exploration et de grattage Web évolutive pour JavaScript/Node.js. Permet le développement de tâches d'extraction de données et d'automatisation Web avec Chrome sans tête, Puppeteer et Playwright.

Commentaires

Posts les plus consultés de ce blog

Comment faire du business sur Amazon ? [GUIDE COMPLET 2022]

100 outils pour lancer sa startup sans argent (mais pas sans talent)

Nomad '✨Maker - TOP✨ Ai GENERATOR

T🌴'artistiK -📗 Books and Publications Spotlight | Lulu

Diagnostiquer et récupérer une messagerie piratée | AVG

115 idées de revenus passifs pour obtenir de l'argent pour travailler pour vous en 2021 - Blog Ippei

6 tunnels de vente indispensables pour vendre sur Internet

ai-collection/README.fr.md at main · ai-collection/ai-collection · GitHub

Meilleurs outils de référencement 🛠 organisée par Saijo George

Stratégie dropshipping : Les 10 leviers marketing pour votre boutique