Everybody needs some scraping

Le scraping, ou web scraping, consiste à récupérer de façon automatisée les données d’un site web. Contrairement à un copier-coller ou une capture d’écran, le scraping permet une extraction structurée des données et ainsi leur réutilisation.

Responsables marketing, directeurs commerciaux, veilleurs, data analysts, … tout le monde peut tirer profit  du scraping pour se constituer ou enrichir les données utiles à leur métier. Rapide tour d’horizon sur cet outil devenu indispensable dans notre quotidien.

Everybody needs some scraping

Le scraping, est-il légal ?

Un premier point à relever est entièrement technique : si le scraping est trop intense, il peut saturer les serveurs et s’apparenter à une attaque par déni de service. Le code pénal (art. 323-2) sanctionne « Le fait d’entraver ou de fausser le fonctionnement d’un système de traitement automatisé de données ». Fort heureusement, les outils de scraping n’ont en général pas ce problème, et ciblent le plus souvent des sites à la fréquentation élevée qui ont constamment un nombre important de requête.

Ensuite, notons que le web scraping ne s’est fait connaître que récemment et n’a donc qu’une faible histoire jurisprudencielle, et que les juridictions de différents pays dans des cas différents n’ont parfois pas la même interprétation. Avec le temps et les différentes décisions, cet article est amené à évoluer.

Commençons par noter que le scraping à des fins personnelles, c’est-à-dire sans réutilisation ou republication sur le web des données est à priori légal.

La situation est plus complexe lorsque le scraping sert à alimenter un site web, reprenant les informations sans l’accord du premier site. Au regard des jugements disponibles, il semble que la réutilisation telles quelles des données, comme un copier-coller, est interdite, cependant si elles sont suffisamment transformées pour un usage différent de l’initial, la réutilisation est autorisée.

Dans l’affaire opposant Leboncoin.fr à Entreparticuliers.com, le dernier site copiait les annonces immobilières du premier, et les présentait incorrectement comme les siennes. Des annonceurs ont fait état de démarchages téléphoniques abusifs liés à ces offres. Entreparticuliers.com a été condamnées en 2017 par le tribunal de grande instance de Paris.

Dans le procès Oopodo c. Ryanair en France, le comparateur de prix Oopodo collectait les données de la compagnie aérienne Ryanair (les prix des vols, précisément). Ryanair, qui avait porté plainte, a été déboutée, la cour ayant retenu que la présentation de sa grille de prix n’était pas suffisante pour être protégée.

Par contre, dans le procès Gas Pedaal c. Auto Track qui opposait aux Pays-Bas un comparateur de prix à un site de vente d’automobiles, la CJUE a jugé en défaveur du comparateur de prix qui se contentait de reprendre les annonces sans aucune action.

Aux États-Unis, dans un procès opposant HiQ à LinkedIn, les tribunaux de district et d’appel américains ont reconnu le droit à l’entreprise de recrutement et ressources humaines HiQ de collecter les données publiquement accessibles et indexées sur le web. Le recours à la cour Suprême est en cours.

A quoi sert le web scraping ?

L’agrégation d’une grande quantité de données est utile là où il n’est pas envisageable de se contenter des consultations manuelles des pages. Par exemple dans le domaine du e-commerce, il n’est pas possible de regarder une par une les offres des concurrents. Le web scraping permettra automatiquement d’ajouter des contenus à un comparateur de prix, pour savoir quelles offres sont les plus intéressantes, où le concurrent est plus compétitif, etc. Les comparaisons de prix sont également utilisées par les agences de voyages, ou encore dans le domaine de l’immobilier.

Si vous souhaitez lancer des campagnes marketing en vous basant sur les pages LinkedIn correspondant à certains critères de poste ou de secteur d’activité (directeurs, CTO, finance, santé…), le scraping de profils devrait permettre d’alimenter votre base de clients potentiels.

LinkedIn peut également être utilisé dans le recrutement : le scraping de pages se basant sur certains diplômes ou critères permet de cibler plus précisément les candidats potentiels.

Marché du scraping

L’e-commerce est de loin le principal utilisateur du web scraping, puisqu’il représente la moitié du marché. Il est suivi par le recrutement et le voyage. La recherche et l’immobilier l’utilisent également.

web scraping market

Les compagnies citées comme les plus importantes du marché du scraping sont :

  • Scrapinghub
  • Botscraper
  • Grepsr
  • Datahut
  • Skieer
  • Scrapy
  • Arbisoft
  • ScrapeHero
  • Freelancer

 

Augustin D.

SOURCES

  • https://www.actualitesdudroit.fr/browse/tech-droit/start-up/9404/le-web-scraping-une-technique-d-extraction-legale
  • https://www.silicon.fr/linkedin-collecte-donnees-260481.html
  • https://www.mediapost.com/publications/article/350655/supreme-court-asks-hiq-to-respond-in-battle-over-d.html
  • https://www.legalis.net/jurisprudences/tgi-de-paris-jugement-du-1er-septembre-2017/
  • https://www.quechoisir.org/actualite-annonces-immobilieres-leboncoin-fait-condamner-entreparticuliers-com-n46232/
  • https://blog.datahut.co/the-economy-of-the-web-scraping-industry/
Tags:
No Comments

Sorry, the comment form is closed at this time.

en_USEnglish