Le guide du dĂ©butant sur le grattage Web · Apify
Le guide du débutant sur le grattage Web
Lisez la suite pour découvrir ce qu'est le grattage Web, pourquoi vous devriez le faire et comment vous pouvez commencer !
Qu'est-ce que le grattage Web ?
Le grattage Web est le processus d'extraction automatique de données à partir de sites Web.
Toute page Web accessible au public peut ĂȘtre analysĂ©e et traitĂ©e pour extraire des informations – ou des donnĂ©es. Ces donnĂ©es peuvent ensuite ĂȘtre tĂ©lĂ©chargĂ©es ou stockĂ©es afin qu'elles puissent ĂȘtre utilisĂ©es Ă toute fin en dehors du site Web d'origine.
Quel est l'intĂ©rĂȘt du grattage Web ?
Le Web est le plus grand référentiel de connaissances et de données dans l'histoire de l'humanité.
Mais cette information a Ă©tĂ© conçue pour ĂȘtre lue par des ĂȘtres humains, pas par des machines. Le scraping Web vous permet de crĂ©er des rĂšgles permettant aux ordinateurs d'accĂ©der Ă ces donnĂ©es de maniĂšre efficace et lisible par machine.
Il est déjà impossible pour les humains de traiter ne serait-ce qu'une fraction des données sur le Web. C'est pourquoi le web scraping devient incontournable. Nous avons besoin de machines pour lire ces données pour nous afin que nous puissions les utiliser dans les affaires, la conservation, la protection des droits de l'homme, la lutte contre le crime et de nombreux projets pouvant bénéficier du type de données qu'Internet est si bon à accumuler.
Ignorer le potentiel du web scraping revient Ă ignorer le potentiel du web.
Le saviez-vous?
Selon la Banque mondiale/UIT, le nombre d'utilisateurs d'Internet dans le monde est passé de 3,5 milliards de personnes en 2017 à 4,2 milliards en 2019, augmentant de 8% par an (TCAC).
A quoi sert le web scraping ?
Le web scraping vous permet de collecter des données structurées. Les données structurées ne sont qu'un moyen de dire que les informations sont faciles à lire par les ordinateurs ou à ajouter à une base de données.
Au lieu de compter sur les humains pour lire ou traiter les pages Web, les ordinateurs peuvent rapidement utiliser ces données de nombreuses maniÚres inattendues et utiles.
Pour illustrer la différence, imaginez combien de temps cela peut vous prendre pour copier et coller manuellement du texte à partir de 100 pages Web.
Une machine pourrait le faire en moins d'une seconde si vous lui donnez les bonnes instructions. Il peut Ă©galement le faire Ă plusieurs reprises, inlassablement et Ă n'importe quelle Ă©chelle. Oubliez environ 100 pages. Un ordinateur peut traiter 1 000 000 de pages dans le temps qu'il vous faudrait pour n'ouvrir que les premiĂšres.
Le journal d'un robot d'indexation, qui ne prend qu'une fraction de seconde pour traiter une page Web
Le saviez-vous?
La majorité du trafic Internet est générée par des robots. 61,5% de tout le trafic du site Web est automatisé.
Avantages du scraping Web pour les entreprises
Le grattage Web vous donne accÚs à de nombreuses données.
Ces donnĂ©es peuvent ĂȘtre :
- chargé dans les bases de données
- ajouté aux feuilles de calcul
- utilisé dans les applications
- réutilisé de maniÚre surprenante et inattendue
Découvrez comment les entreprises utilisent le web scraping pour améliorer leurs processus métier
Voici quelques-unes des façons dont le grattage Web peut aider votre entreprise Ă ĂȘtre plus efficace et rentable :
Suivi des prix
Soyez plus compĂ©titif en suivant les prix de vos concurrents en temps rĂ©el et avec la possibilitĂ© d'ajuster vos propres prix Ă la volĂ©e. Vous pouvez mĂȘme dire Ă vos propres clients ce que font vos concurrents afin qu'ils voient les avantages d'acheter chez vous Ă la place.
Génération de leads
Générez des prospects intelligents en récupérant les informations de contact accessibles au public et les profils de plateforme de médias sociaux pour trouver de nouveaux clients et des prospects commerciaux potentiels.
Agrégation de contenu
Agréger le contenu pour créer de nouvelles utilisations des données, faciliter la lecture des données ou ajouter de la valeur en informant les utilisateurs lorsque les prix ou le contenu changent.
Analyse de marché
Obtenez des informations sur le marchĂ© en rĂ©cupĂ©rant des donnĂ©es sur votre entreprise, la demande des clients, les commentaires dans la nature, ou mĂȘme en identifiant les opportunitĂ©s dans le monde rĂ©el en analysant les changements et les tendances dĂ©mographiques.
Référencement
Améliorez votre référencement en surveillant les mots-clés, la popularité et les tendances sur le Web.
Si vous souhaitez en savoir plus sur d'autres entreprises et industries qui utilisent le web scraping, consultez nos cas d'utilisation et nos rĂ©ussites . Vous trouverez des exemples de la façon dont la surveillance des prix des dĂ©taillants , l'apprentissage automatique , la protection des droits d'auteur et mĂȘme les mamans qui retournent au travail peuvent bĂ©nĂ©ficier du grattage Web.
Le grattage Web peut également profiter à l'humanité
Le grattage Web n'est pas seulement utilisé pour un gain financier. Des organisations du monde entier utilisent le web scraping pour aider .
Avantages du grattage Web
Vitesse
Le grattage Web est le moyen le plus rapide d'obtenir des donnĂ©es Ă partir de sites Web et cela signifie que vous n'avez pas Ă passer du temps Ă collecter manuellement ces donnĂ©es. En plus de cela, vous pouvez gratter plusieurs sites Web en mĂȘme temps. Plus besoin de copier-coller de donnĂ©es. Vous configurez vos scrapers et ils collectent inlassablement et rapidement les donnĂ©es quand vous en avez besoin. Vous voulez extraire toutes les informations sur les prix et les listes de milliers de produits en quelques minutes ? Aucun problĂšme.
Données à grande échelle
Les outils de grattage Web vous fournissent des donnĂ©es Ă un volume bien plus important que ce que vous ne pourriez jamais collecter manuellement. Les robots gagnent sur les humains Ă chaque fois que vous traitez d'Ă©normes quantitĂ©s d'informations. Les grattoirs vous fourniront des tĂ©raoctets de donnĂ©es en quelques secondes, triĂ©s, organisĂ©s et prĂȘts Ă l'emploi. Il n'y a pas d'autre solution qui puisse fournir la quantitĂ© ahurissante de donnĂ©es que le grattage moderne rend possible.
Rentable
Vous pensez avoir besoin d'un systĂšme complexe Ă gratter ? DĂ©trompez-vous ! Vous constaterez souvent qu'un simple grattoir peut faire le travail, vous n'avez donc pas besoin d'investir dans plus de personnel ou de vous soucier des coĂ»ts de dĂ©veloppement. Les outils de grattage concernent l'automatisation de tĂąches rĂ©pĂ©titives, mais ces tĂąches ne sont souvent pas si compliquĂ©es. Mieux encore, vous n'aurez peut-ĂȘtre mĂȘme pas besoin de crĂ©er ou de commander un nouveau grattoir, car il existe de nombreux outils prĂȘts Ă l'emploi.
Modifiable et flexible
Les grattoirs sont encore plus Ă©conomiques car ils sont entiĂšrement personnalisables. CrĂ©ez un grattoir pour une tĂąche et vous pouvez souvent l'adapter pour une tĂąche diffĂ©rente en n'apportant que de petits changements. Et ce ne sont pas des solutions codĂ©es en dur qui ne peuvent pas ĂȘtre modifiĂ©es Ă mesure que votre situation ou vos dĂ©fis changent. Les robots de grattage sont des outils qui peuvent s'ajuster et s'adapter Ă votre flux de travail Ă mesure que vous grandissez.
Précis, fiable et robuste
Configurez correctement votre grattoir et il collectera avec prĂ©cision des donnĂ©es directement Ă partir de sites Web, avec un trĂšs faible risque d'introduction d'erreurs. Les humains ne sont pas douĂ©s pour les tĂąches monotones et rĂ©pĂ©titives. Nous nous ennuyons, notre attention vagabonde et nous avons des limites Ă la vitesse Ă laquelle nous pouvons travailler. Les bots n'ont pas ces problĂšmes, donc si vous effectuez la configuration initiale correctement, vous pouvez ĂȘtre sĂ»r que votre grattoir vous donnera des rĂ©sultats fiables et prĂ©cis aussi longtemps que vous en aurez besoin.
Faibles coûts d'entretien
Le coĂ»t de maintenance d'une solution de raclage est faible en raison de la flexibilitĂ© inhĂ©rente des racleurs. Les sites Web changent au fil du temps, avec de nouveaux designs, catĂ©gories et mises en page. Un grattoir doit ĂȘtre mis Ă jour afin qu'il puisse rĂ©agir Ă ces changements. Mais ces types de changements peuvent gĂ©nĂ©ralement ĂȘtre rĂ©glĂ©s en ajustant lĂ©gĂšrement le grattoir. La maintenance d'un scraper peut consister simplement Ă modifier une seule variable ou Ă mettre Ă jour un seul champ, vous n'avez donc pas besoin de toute une Ă©quipe de dĂ©veloppeurs pour maintenir vos scrapers opĂ©rationnels.
Livraison automatique de données structurées
Les ordinateurs aiment recevoir des informations structurĂ©es de maniĂšre Ă pouvoir les lire et les trier facilement. Cela signifie simplement que chaque donnĂ©e doit ĂȘtre organisĂ©e dans ce qui ressemblerait Ă une feuille de calcul pour nous, les humains. Les donnĂ©es supprimĂ©es arrivent par dĂ©faut dans un format lisible par une machine, de sorte que des valeurs simples peuvent souvent ĂȘtre immĂ©diatement utilisĂ©es dans d'autres bases de donnĂ©es et programmes. Si vous configurez correctement votre solution de grattage, vous obtiendrez des donnĂ©es structurĂ©es qui fonctionneront de maniĂšre transparente avec d'autres outils.
Inconvénients du grattage Web
Le scraping Web a une courbe d'apprentissage
Il peut ĂȘtre intimidant de penser Ă la programmation nĂ©cessaire Ă la crĂ©ation d'un grattoir. Mais la plupart des entreprises qui utilisent des grattoirs n'ont pas besoin d'y penser, car il existe des solutions prĂȘtes Ă l'emploi qui fonctionnent pour de nombreux cas d'utilisation diffĂ©rents. Bien sĂ»r, si vous dĂ©cidez de crĂ©er votre propre scraper Ă partir de zĂ©ro, cela peut prendre beaucoup de temps, mais il existe Ă©galement d'excellentes communautĂ©s vers lesquelles vous pouvez vous tourner pour obtenir de l'aide, ainsi qu'une documentation complĂšte pour vous guider.
Le web scraping a besoin d'un entretien perpétuel
Aucune solution de grattage Web ne peut ĂȘtre dĂ©finie et oubliĂ©e pour toujours. Ătant donnĂ© que votre scraper dĂ©pend d'un site Web externe, vous n'avez aucun contrĂŽle sur le moment oĂč ce site Web modifie sa structure ou son contenu, vous devez donc rĂ©agir si le scraper devient obsolĂšte. Cela signifie porter une attention rĂ©guliĂšre Ă vos rĂ©sultats et vous assurer que vos donnĂ©es restent pertinentes et exactes. La maintenance est peut-ĂȘtre une rĂ©alitĂ© pour les grattoirs Web, mais c'est une vĂ©ritĂ© inĂ©vitable Ă propos de la plupart des solutions qui vous apportent de la valeur.
L'extraction de donnĂ©es n'est pas la mĂȘme que l'analyse de donnĂ©es
Il s'agit principalement de dĂ©finir des attentes rĂ©alistes. Quelle que soit la qualitĂ© de l'outil de grattage que vous utilisez, il est conçu pour effectuer une tĂąche simple. Il collecte des donnĂ©es, les trie dans un format structurĂ© et les transmet Ă votre ordinateur ou Ă votre base de donnĂ©es sans aucune perte de donnĂ©es. Les donnĂ©es arriveront dans un format structurĂ©, mais des donnĂ©es plus complexes devront ĂȘtre traitĂ©es afin de pouvoir ĂȘtre utilisĂ©es dans d'autres programmes. Ce processus peut nĂ©cessiter beaucoup de ressources et de temps, vous devez donc vous y prĂ©parer si vous ĂȘtes confrontĂ© Ă un projet d'analyse de donnĂ©es volumineuses.
Les grattoirs peuvent ĂȘtre bloquĂ©s
Certains sites Web n'aiment tout simplement pas ĂȘtre grattĂ©s. Cela peut ĂȘtre dĂ» au fait qu'ils pensent que les scrapers consomment leurs ressources, ou simplement parce qu'ils ne veulent pas que d'autres entreprises puissent facilement rivaliser avec eux. Dans certains cas, l'accĂšs est bloquĂ© en raison de l'origine du grattoir, de sorte qu'une demande provenant d'un pays ou d'une adresse IP en particulier n'est pas autorisĂ©e. Ce type de blocage IP est souvent rĂ©solu par l'utilisation de serveurs proxy ou en prenant des mesures pour empĂȘcher les empreintes digitales du navigateur ou de l'appareil. Mais comme le grattage Web est devenu un outil plus rĂ©pandu pour de nombreuses entreprises, les sites Web se mĂ©fient moins du grattage et diminuent une partie de leur rĂ©sistance. Ainsi, mĂȘme si un site Web a bloquĂ© des scrapers dans le passĂ©, cela peut changer avec le temps.
Le web scraping est-il légal ?
Le grattage Web n'est qu'un moyen d'obtenir des informations à partir de sites Web. Ces informations sont déjà accessibles au public sur Internet, mais elles sont fournies d'une maniÚre optimisée pour les humains. Le grattage Web l'optimise simplement pour les machines. Le scraping Web n'est pas du piratage, et il n'est pas destiné à causer des problÚmes aux sites Web qui sont scrapés.
Racler Web est lĂ©gal, mais il ' est une question de ce que vous grattez et comment vous gratter. C'est comme prendre des photos avec votre tĂ©lĂ©phone. La plupart du temps, ce sera lĂ©gal, mais prendre des photos d'une base militaire ou de documents confidentiels pourrait vous causer des ennuis. Le grattage Web est le mĂȘme. Il n'y a aucune loi ou rĂšgle interdisant le grattage Web. Mais ce doesn ' t signifie que vous pouvez gratter tout.
Voici quelques bonnes rÚgles à suivre lors de la création d'un grattoir :
- Ăvitez de gratter de grandes quantitĂ©s de donnĂ©es personnelles Ă moins que vous ne connaissiez les rĂšgles.
- Don « t surcharger les serveurs du site Web que vous » re de grattage.
- Ne grattez que les informations accessibles au public.
- Don ' scrape t ou l' utilisation du contenu sous copyright.
Si vous voulez en savoir plus, consultez notre explication dĂ©taillĂ©e de ce que vous devez et shouldn « t Ă©raflure, et comment vous pouvez crĂ©er des grattoirs Ă©thiques, juridiques don » qui que ce soit de mal t ou violent les lois internationales sur les donnĂ©es ou la protection des droits d'auteur.
Comment fonctionne le Web ?
Avant de vous lancer dans le monde du grattage Web, il peut ĂȘtre utile de mieux comprendre le fonctionnement d'Internet et du Web.
L' Internet est né pendant la guerre froide dans les années 1960, mais le Web est née de nombreuses années plus tard , lorsque Sir Tim Berners-Lee a proposé un systÚme hypertexte en réseau à son patron au CERN .
Cette idée a finalement conduit Berners-Lee à créer trois technologies importantes :
- Protocole de transfert hypertexte (HTTP) . Cela permet aux ordinateurs de récupérer des ressources liées sur le Web.
- Langage de balisage hypertexte (HTML) . Le langage de balisage du Web. Permet de formater le texte pour qu'il s'affiche correctement.
- Localisateur de ressources uniformes (URL) . Autrement connu sous le nom d'« adresse Web ». UtilisĂ© pour identifier toutes les ressources sur le Web.
Mettez-les ensemble et vous obtenez les éléments essentiels de ce qui est finalement devenu le World Wide Web.
La décentralisation était fondamentale pour le Web initial tel qu'envisagé par Berners-Lee, tout comme la compatibilité universelle et la simplification du partage d'informations. Au fil du temps, des normes ont été établies grùce à un processus transparent et participatif par le World Wide Web Consortium (W3C) . Ces standards ouverts sont l'une des pierres angulaires qui ont permis au Web de se développer.
Berners-Lee croit toujours fermement qu'il est vital de « dĂ©fendre et faire progresser le Web ouvert en tant que bien public et droit fondamental » et a crĂ©Ă© la World Wide Web Foundation il y a un peu plus de dix ans pour assurer l'Ă©galitĂ© numĂ©rique et la transparence pour tous.
Cette vision d'un Web ouvert est tout aussi importante aujourd'hui qu'elle l'était alors. Et rendre les données accessibles à tous fait partie du maintien du Web ouvert. C'est là qu'intervient le grattage Web.
Qu'est-ce qu'un navigateur Web ?
Vous utilisez un navigateur Web pour afficher cette page Web. Un navigateur Web n'est qu'un logiciel, ou un programme informatique, qui vous permet d'accéder, de visualiser et d'interagir avec des pages Web.
Le saviez-vous?
Vous pensez qu'Internet et le World Wide Web signifient la mĂȘme chose ? Non, Internet est un rĂ©seau d'ordinateurs, tandis que le World Wide Web est un pont pour accĂ©der et partager des informations Ă travers celui-ci.
Comment fonctionnent les navigateurs Web ?
Votre navigateur récupÚre des informations sur le Web et les affiche sur votre ordinateur ou appareil mobile.
Il utilise le protocole de transfert hypertexte (HTTP) pour récupérer le contenu des sites Web et le langage de balisage hypertexte (HTML) pour déterminer comment restituer le contenu.
Le résultat final est que vous voyez une page Web sur votre appareil et que vous pouvez interagir avec cette page Web. Sous-jacente à la page Web peut se trouver une multitude d'autres technologies, telles que HTML , CSS , JavaScript , etc.
Essayez vous-mĂȘme
Vous pouvez facilement voir le code source d'un site Web :
- Ouvrez n'importe quelle page dans un navigateur sur un Mac ou un PC. Par exemple, vous pouvez ouvrir la page IMDb pour The Queen's Gambit .
- Cliquez ensuite avec le bouton droit de la souris et sélectionnez Inspecter en bas du menu.
- Le code qui a créé la page sera affiché.
Dans l'image ci-dessous :
- le site est affiché dans le panneau de gauche,
- au milieu se trouvent le code source (HTML et JavaScript),
- le panneau de droite montre le code utilisé pour styliser la page (Cascading Style Sheets, ou CSS).
Comment puis-je commencer le grattage Web ?
Nous constatons que le grattage Web fonctionne mieux si vous faites une pause et que vous vous posez ces trois questions avant de commencer Ă coder ou de commander une solution :
Quelles informations recherchez-vous ?
Quelles données voulez-vous obtenir ?
OĂč trouver les donnĂ©es ?
Quel est le site Web et quelle est l'URL ?
Que ferez-vous des données ?
Dans quel format en avez-vous besoin et comment devez-vous l'extraire ?
Une fois que vous avez répondu à ces questions, vous pouvez commencer à réfléchir à la maniÚre dont vous allez récupérer les données que vous souhaitez.
Terminologie de base du grattage
Raclage Web
Le processus d'extraction automatique des donnĂ©es des sites Web. Ăgalement connu sous le nom de grattage d'Ă©cran, extraction de donnĂ©es Web, rĂ©colte Web.
Suppression de sites Web
C'est juste une faute de frappe trĂšs courante et facile Ă faire !
Exploration du Web
Les robots d'exploration Web sont des araignées ou des robots araignées qui parcourent systématiquement le Web et l'indexent. Les moteurs de recherche utilisent ces robots pour nous faciliter la recherche sur le Web.
Données structurées
Informations organisĂ©es et formatĂ©es de maniĂšre Ă ĂȘtre facilement lues et stockĂ©es par les ordinateurs dans des bases de donnĂ©es. Une feuille de calcul est un bon exemple de la façon dont les donnĂ©es peuvent ĂȘtre organisĂ©es de maniĂšre structurĂ©e.
Protocole de transfert hypertexte (HTTP)
Permet aux ordinateurs de récupérer des ressources liées sur le Web.
Langage de balisage hypertexte (HTML)
Le langage de balisage du Web. Permet de formater le texte pour qu'il s'affiche correctement.
Localisateur de ressources uniformes (URL)
Une « adresse Internet ». UtilisĂ© pour identifier toutes les ressources sur le Web.
Feuilles de style en cascade (CSS)
Le langage de conception du Web. Il permet aux auteurs de pages Web de styliser le contenu et de contrÎler la présentation sur l'ensemble d'un site Web.
JavaScript
Langage de programmation utilisé partout sur Internet pour contrÎler le comportement des sites Web et permettre une interaction complexe entre l'utilisateur et la page Web.
adresse IP
Une adresse de protocole Internet est un numéro attribué à chaque appareil sur Internet. Ces numéros permettent aux appareils de communiquer entre eux.
Procuration
Un serveur proxy est un appareil qui sert d'intermédiaire entre d'autres appareils sur Internet. Les proxys sont couramment utilisés pour masquer l'emplacement géographique d'un appareil particulier, souvent pour des raisons de confidentialité.
Interface de programmation d'applications (API)
Une interface informatique qui permet Ă plusieurs applications diffĂ©rentes de communiquer entre elles. Une API fonctionne comme un ensemble de rĂšgles pour indiquer au logiciel quelles demandes ou instructions peuvent ĂȘtre Ă©changĂ©es et comment les donnĂ©es doivent ĂȘtre transmises. Apify tire son nom de l'API đ
Kit de développement logiciel (SDK)
Un package qui permet aux développeurs de créer des applications sur une plate-forme particuliÚre. Un SDK peut inclure des bibliothÚques de programmation, des API, des outils de débogage et des utilitaires conçus pour faciliter l'utilisation de la plate-forme par un développeur. Apify possÚde son propre SDK .
Quiz sur place
Quelle est la différence entre le grattage Web et l'exploration Web ?
Entreprises et outils de grattage Web
Vous voulez donc commencer le scraping Web, vous savez ce que vous voulez scraper et vous avez décidé d'explorer les différentes maniÚres de commencer.
Il existe de nombreuses méthodes et entreprises impliquées dans le grattage Web. Pour vous aider à choisir, divisons le monde du grattage Web en quatre catégories différentes.
Sociétés de conseil aux entreprises
Ceux-ci fournissent des solutions haut de gamme « data-as-a-service » clĂ©s en main aux grandes entreprises. Ils effectueront du grattage Ă n'importe quelle Ă©chelle, mais Ă un prix.
Outils pointer-cliquer
Vous permet d'aller sur un site Web et de cliquer simplement sur les éléments que vous souhaitez gratter. Ceux-ci sont assez bons pour des cas d'utilisation simples, mais pas si bons pour des projets plus compliqués.
Exemples : Dexi .
Plateformes de programmation
A platform is designed for developers and offers a lot of flexibility. Instead of building the infrastructure for scraping, you use an existing system that was specifically designed for the task.
AI knowledge extractors
These companies take an AI approach and attempt to extract data from websites automatically. It works for standardized pages, but is not flexible enough to cover a variety of use cases.
Examples: DiffBot.
Read about the Top 10 free web scraping tools for data analysts.
Take a look at the other web scraping companies and tools you might have heard of on our Apify alternatives page.
You have plenty of options, but we believe that you should use Apify for your web scraping needs đ
We’ve built a versatile and fast web scraping and automation platform that works for beginners, developers, and enterprise customers. Our goal from the outset was to create an organic ecosystem of scrapers and automation tools that would develop and grow with the needs of its users.
Read on to see why Apify has the best web scraping tools in the business.
Web scraping with Apify
Apify offers several different ways to scrape. You can start from scratch with your own solution, build upon existing tools, use ready-made tools, or get a solution created for you.
Enterprise solution
Les entreprises clientes peuvent commander une solution de scraping ou d'automatisation Web plus spécialisée à n'importe quelle échelle auprÚs d'un expert en données Apify dédié. Nous travaillerons avec vous jusqu'à l'achÚvement du projet et pourrons continuer à assurer la maintenance une fois qu'il sera opérationnel.
Parlez-nous de votre projet
Vous pouvez utiliser ce formulaire ou cliquer sur la bulle de discussion en bas Ă droite de l'Ă©cran pour discuter avec un expert Apify !
Commandez une solution personnalisée
Développer vos propres scrapers Web ou robots d'automatisation Web peut prendre beaucoup de temps et d'efforts. Avec Apify, vous pouvez déléguer ce travail à des experts qui vous livreront une solution clé en main rien que pour vous.
Il est facile de demander une solution personnalisée avec Apify.
Utiliser un outil prĂȘt Ă l'emploi
Apify Store propose des solutions existantes pour les sites populaires. C'est le moyen le plus rapide d'obtenir vos donnĂ©es car les outils sont dĂ©jĂ optimisĂ©s pour des cas d'utilisation particuliers. Nos outils sont conçus pour ĂȘtre simples, mĂȘme pour ceux qui n'ont aucune expĂ©rience de codage et notre Ă©quipe d'assistance est toujours prĂȘte Ă vous aider.
Essayez vous-mĂȘme
En ce qui concerne les outils prĂȘts Ă l'emploi d'Apify, une grande partie du code de grattage Web dont vous avez besoin a dĂ©jĂ Ă©tĂ© Ă©crite par un dĂ©veloppeur. Il vous suffit donc de dĂ©cider quelles informations vous souhaitez extraire. D'accord, il est temps pour un exemple concret, alors obtenons des donnĂ©es d'IMDb sur la rĂ©cente sĂ©rie Ă succĂšs de Netflix, The Queen's Gambit.
- Accédez au Scraper IMDb d'Apify et cliquez sur Essayer gratuitement .
- Remplissez l' URL de The Queen's Gambit dans le champ de saisie.
- Cliquez sur Enregistrer et exécuter .
Les données de sortie contiendront les informations suivantes sur chaque film ou série que vous avez répertorié dans le schéma d'entrée du scraper IMDb :
[
{
title: "The Queen's Gambit",
original title: "",
runtime: 395,
certificate: "TV-MA",
year: "",
rating: "8.6",
ratingcount: "250392",
description: "Orphaned at the tender age of nine, prodigious
introvert Beth Harmon discovers and masters the game of
chess in 1960s USA. But child stardom comes at a price.",
stars: "Anya Taylor-Joy, Chloe Pirrie, Bill Camp",
director: "",
genre: "Drama, Sport",
country: "USA",
url: "https: //www.imdb.com/title/tt10048342"
}
]
Codez-le vous-mĂȘme
Vous pouvez utiliser nos grattoirs génériques et les personnaliser avec juste un peu de JavaScript. Ou vous pouvez utiliser Apify SDK pour créer votre propre solution de grattage.
Essayez vous-mĂȘme
Essayons une version plus compliquĂ©e de notre exemple ci-dessus, oĂč nous avons utilisĂ© le grattoir IMDb d'Apify pour obtenir des informations sur The Queen's Gambit. Cette fois, nous allons utiliser un outil de grattage Web universel, le couteau suisse du grattage Web d'Apify, notre grattoir Web .
Suivez simplement les étapes et grattez la note de The Queen's Gambit sur IMDb.com avec votre propre grattoir alimenté par JavaScript.
- Inspectez la source de vos donnĂ©es, autrement dit ce lien (rappelez-vous qu'il vous suffit de faire un clic droit sur la page et de sĂ©lectionner « Inspecter » en bas du menu), et recherchez et sĂ©lectionnez les informations que vous souhaitez scraper. Pour notre exemple, le code ressemblera Ă ceci :
<span itemprop="ratingValue">8.6</span>
Créez une tùche pour Web Scraper sur la plateforme Apify en cliquant sur Essayer gratuitement .
Collez l'URL de la page IMDb de Queen's Gambit dans le champ URL de démarrage et remplacez le code dans le champ Fonction de la page par le code ci-dessous. Supprimez les champs Sélecteur de lien et Pseudo-URL .
async function pageFunction(context) { const $ = context.jQuery; return { url: context.request.url, rating: +$('[itemprop="ratingValue"]').text().trim(), ratingCount: +$('[itemprop="ratingCount"]').text().replace(/[^\d]+/g, '') || null, title: $('.title_wrapper h1').text().trim(), }; }
Cliquez sur Enregistrer et exécuter , puis vérifiez l'ensemble de données avec le résultat final.
{ url: "https: //www.imdb.com/title/tt10048342" rating: "8.6", ratingcount: "250392", title: "The Queen's Gambit", }
Astuce : pour une explication plus détaillée, consultez notre tutoriel complet pour ce grattoir.
Si vous ne pouvez toujours pas décider quelle option vous convient, lisez-en plus sur le choix de la bonne solution ou envoyez-nous simplement un e-mail à hello@apify.com pour obtenir des conseils d'experts gratuits sur votre cas d'utilisation.
Vous ne savez pas quelle solution de grattage Web vous convient ? Comparez les avantages d'utiliser Apify cÎte à cÎte avec ses alternatives pour vous aider à décider.
Apprendre le web scraping
Maintenant que vous connaissez les bases du grattage Web, vous voudrez peut-ĂȘtre approfondir le sujet. Pour vous faire gagner du temps, nous avons rassemblĂ© quelques cours et tutoriels adaptĂ©s Ă tous les niveaux. Nous les recommandons comme un excellent moyen de se familiariser rapidement avec le grattage Web.
Cours pour débutants
Udemy propose un cours pour débutants pour vous initier au grattage Web en 60 minutes.
Pluralsight propose un cours sur le grattage Web avec Python pour les débutants plus expérimentés.
Coursera a un projet guidé sur le grattage avec Python et Beautiful Soup , pour les utilisateurs beaucoup plus avancés.
Guides pour débutants
Notre propre blog Apify contient des articles généraux pour vous inspirer, ainsi que plusieurs guides étape par étape pour gratter les sites Web populaires.
- Quelle est la différence entre le web scraping et le crawling ?
- Comment gratter n'importe quel site Web pour les débutants absolus.
- Comment gratter les pages Facebook .
- Scaping des emplacements de Google Maps .
Tutoriels vidéos
Comment scraper Amazon pour surveiller vos concurrents (web scraping).
Notifications de publication Scrape Medium : suivez toutes les réponses (automatisation des processus).
Comment mettre en place le monitoring de vos projets Apify (web scraping automation).
Monitoring : comment configurer la validation des données.
Les meilleurs conseils de grattage Web des développeurs Apify
Lecture technique intéressante sur notre blog
Ce sont les articles techniques les plus populaires sur le blog Apify .
Découvrez les techniques modernes de protection contre le grattage Web de Petr et comment les contourner. Grattez jusqu'à trois fois plus de pages en combinant la rotation des adresses IP avec l'émulation d'adresses IP partagées.
Utilisation d'un proxy man-in-the-middle pour extraire les données d'une API d'application mobile
Petr vous montrera comment configurer un proxy man-in-the-middle et installer un certificat auto-signé sur votre téléphone mobile afin d'intercepter la communication HTTPS entre n'importe quelle application mobile et son API backend.
Vous voulez créer vos propres grattoirs Web ?
Apprenez-en plus sur Apify et ce que nous faisons en lisant la documentation complÚte d' Apify . Familiarisez-vous avec la plateforme et obtenez tous les conseils techniques dont vous avez besoin de nos meilleurs développeurs.
DĂ©couvrez Apify SDK , la bibliothĂšque d'exploration et de grattage Web Ă©volutive pour JavaScript/Node.js. Permet le dĂ©veloppement de tĂąches d'extraction de donnĂ©es et d'automatisation Web avec Chrome sans tĂȘte, Puppeteer et Playwright.
Commentaires
Enregistrer un commentaire
đ Hello,
N'hĂ©sitez pas Ă commenter ou vous exprimer si vous avez des trucs Ă dire . . .đ