Le scraping de données sur les sites internet, ou web scraping, est une pratique de plus en plus fréquente. Elle a pour objectif de collecter massivement et automatiquement des données personnelles sur des sites internet et réseaux sociaux, comme LinkedIn par exemple.
Toutefois, le web scraping est une pratique encadrée par la loi et dont il est important de comprendre les enjeux avant de l’utiliser. En tant qu’entreprise vous souhaitez utiliser le web scraping, ou au contraire vous en prémunir ? Me Marie Marcotte décrypte pour vous le sujet.
- Le web scraping : définition
- Quelles sont les règles encadrant le web scraping ?
- Pourquoi utiliser du web scraping et comment le faire en toute légalité ?
- Quelles sont les sanctions en cas de violation des règles du web scraping ?
- Comment empêcher le web scraping sur son site ?
- L’importance de se faire accompagner par un avocat
Le web scraping : définition
Le scraping, qui signifie en français “grattage”, aussi connu sous le nom de web scraping, est une technique d’extraction automatisée de contenu structuré. En d’autres termes, cela permet de collecter automatiquement des données sur un site, en utilisant un logiciel.
Le web scraping est à distinguer :
- Du web crawling, qui consiste à collecter des données par l’utilisation d’un logiciel qui parcourt plusieurs sites automatiquement ;
- De l’utilisation d’une interface de programmation applicative (API), qui permet de connecter un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et fonctionnalités.
Quelles sont les règles encadrant le web scraping ?
Le web scraping est encadré en droit français par l’article L. 342-3 du Code de la propriété intellectuelle, qui autorise les pratiques suivantes :
- L'extraction ou la réutilisation d'une partie non substantielle appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès. Cela signifie que le propriétaire du site web peut limiter le contenu pouvant être scrapé sur son site, en le précisant dans ses conditions générales d’utilisation.
- L’extraction à des fins privées est autorisée, dans le respect des dispositions législatives et réglementaires en matière de droits d’auteurs et de droits voisins sur les œuvres ou les éléments incorporés dans la base.
- L’extraction et la réutilisation d’une partie substantielle, appréciée de façon qualitative ou quantitative, à des fins exclusives d’illustration dans le cadre de l’enseignement et de la recherche et pour un public composé d’élèves, d’étudiants, d’enseignants ou de chercheurs directement concernés. Ainsi, ce cas de figure étant limité à des fins pédagogiques, il est totalement exclu de faire usage des données extraites à titre commercial par exemple.
Par ailleurs, l’utilisation des données personnelles collectées via le web scraping, sont soumises, comme toutes les données personnelles au RGPD (règlement européen sur la protection des données). Pour être conforme au RGPD, consultez notre article sur 4 actions à mettre en place.
Pourquoi utiliser du web scraping et comment le faire en toute légalité ?
L’intérêt du web scraping est multiple. Certaines entreprises l'utilisent dans le but d’alimenter leur veille concurrentielle, d’autres pour enrichir leur propre base de données.
Pour utiliser la technique du web scraping en toute légalité, la première chose à faire est de prendre connaissance des conditions générales d’utilisation du site que vous souhaitez scraper.
Par exemple, les conditions générales d’utilisation de LinkedIn ne permettent en principe pas de scraper des données. En effet, elles disposent que : « Vous vous engagez à ne pas développer, prendre en charge ou utiliser des logiciels, des dispositifs, des scripts, des robots ou tout autre moyen ou processus (notamment des robots d’indexation, des modules d’extension de navigateur et compléments, ou toute autre technologie) visant à effectuer du web scraping des Services ou à copier par ailleurs des profils et d’autres données des Services ».
Par ailleurs, si les CGU ne vous empêchent pas de scraper certaines données, certaines bonnes pratiques vous permettront de faire du web scraping de manière éthique et respectueuse :
- Choisissez le bon moment : le web scraping peut parfois provoquer des problèmes techniques sur le site web. Il est donc plus convenable de pratiquer le web scraping en dehors des heures de pointe du site ;
- Limiter les données scrapées à celles dont vous avez vraiment besoin : il n’est pas nécessaire de copier toutes les données que vous pouvez, ne choisissez que celles dont vous avez besoin pour votre création de valeur ;
- Préférez les API quand vous le pouvez : certains sites proposent des API permettant de collecter des données sans devoir les scraper ;
- Respectez les fichiers Robots.txt : ces fichiers indiquent aux logiciels visitant le site les endroits dans lesquels ils sont autorisés et ceux où ils ne le sont pas.
Quelles sont les sanctions en cas de violation des règles du web scraping ?
Plusieurs sanctions peuvent s’appliquer en cas de violation des règles du web scraping :
- L’article 323-3 du code pénal punit de 150.000 euros d’amende et cinq d’emprisonnement “le fait d'introduire frauduleusement des données dans un système de traitement automatisé, d'extraire, de détenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les données qu'il contient”. Encore faut-il prouver l’intention frauduleuse du web scraping dans ce cas là.
- En droit de la concurrence, le web scraping peut être qualifié d’un acte de concurrence déloyale ou de parasitisme, si les critères de qualification sont remplis. Dans ce cas, le site web victime pourra intenter une action en responsabilité délictuelle et l’auteur du web scraping pourra être condamné au paiement de dommages et intérêts.
- L’auteur du web scraping peut également être sanctionné sur le fondement de la propriété intellectuelle en cas de non-respect de l’article L. 342-3 du Code de la propriété intellectuelle.
- Enfin, la CNIL (Commission Nationale de l'Informatique et des Libertés), qui a un pouvoir de contrôle et de sanction en matière de RGPD, peut sanctionner des pratiques de web scraping litigieuses sur le fondement du non-respect de la protection des données personnelles. Elle a notamment condamné la société Nestor à une amende 20.000 car elle avait construit sa base de prospects en ayant recours à la pratique de web scraping à partir de données accessibles sur le réseau social professionnel Linkedin. L’une des infractions retenues par la CNIL était d’avoir pratiqué la sollicitation commerciale de prospects identifiés via Linkedin alors qu’aucun consentement n’avait été obtenu, ni de la part des utilisateurs, ni de la part du réseau social.
Comment empêcher le web scraping sur son site ?
En tant qu’entreprise, votre site internet peut également être l’objet de web scraping. Si vous ne souhaitez pas partager vos données, ou si vous souhaitez en limiter le partage, voici quelques bonnes pratiques à adopter :
- Exiger la création d’un compte utilisateur pour accéder au contenu du site. Cela vous permettra de garder un oeil sur les utilisateurs et de repérer les comportements de scraping ;
- Interdisez l’accès aux adresses IP suspectes ;
- Utilisez des Captchas permettant de déterminer si les utilisateurs sont des robots.
L’importance de se faire accompagner par un avocat
Le web scraping est un sujet complexe, récent et dont les règles sont encore en cours de définition par la jurisprudence. L’utilisation de cette pratique peut être risquée si le cadre légal et contractuel (notamment les conditions générales d’utilisation) n’est pas respecté. Le web scraping peut également être préjudiciable pour votre site internet et vous pouvez vouloir le limiter au maximum.
Que vous souhaitiez utiliser le web scraping ou le limiter sur votre site internet, il est recommandé de se faire accompagner par un avocat spécialisé en droit du numérique, qui saura vous conseiller sur la pratique du web scraping.
- Le web scraping est une pratique qui consiste à extraire le contenu de sites web par le biais d’un logiciel de manière à collecter automatiquement les données du site.
- Le web scraping est encadré par le code de la propriété intellectuelle, et les données récoltées sont soumises aux principes du RGPD.
- Le web scraping présente un intérêt certain pour les entreprises, et il est possible de le pratiquer en respectant certaines bonnes pratiques.
- Le web scraping illégal peut être sanctionné sur le fondement du droit pénal, du droit de la concurrence, du droit de la propriété intellectuelle et du RGPD.
- Il existe des techniques pour empêcher les pratiques de web scraping sur son site internet.