Comment scraper SeLoger avec Python et Requests?

Sasha Bouloudnine●

September 2, 2022

●

8 min read

Contents

Dans cet article de blog, nous allons avoir ensemble, sous la forme d’un guide imagé pas à pas, comment réaliser un scraping des annonces SeLoger avec Python3 et la librairie requests, directement depuis la ligne de commande.

Comment repérer la requête initiale, récupérer précisément la donnée dont on a besoin… contourner (temporairement) les outils dits de bot mitigation.

Nerds de tous les pays, tenez vous prês!

🤓

Prérequis

Afin de réaliser ce tutoriel de bout en bout, et avant de partir la fleur au fusil, soyez sur d’avoir les éléments suivants installés sur votre ordinateur.

Vous pouvez cliquer sur les liens ci-dessous, qui vous dirigeront soit vers un tutoriel d’installation, soit vers le site en question.

Pour préciser l’utilité de chacun des éléments cités ci-dessus: python3 est le langage informatique avec lequel nous allons construire le scraper SeLoger, requests est une librairie qui permet de se déplacer sur Internet, lxml va nous permettre de récupérer les inGoogle Chrome va nous aider à observer ce qui se passe depuis le navigateur avant de le reproduire de façon programmatique. Enfin, SublimeText est un éditeur de texte sympathique.

Tout y est!

Légal

La question revient souvent (quasi systématiquement) sur le devant de la scène: est-ce que c’est légal de faire du scraping sur SeLoger?

Et pour cause, les CGUs du site précise comme suit:

« l'Utilisateur s'interdit de procéder à :

l'extraction par transfert permanent ou temporaire de la totalité ou d'une partie qualitativement ou quantitativement substantielle du contenu d'une ou plusieurs des bases des données accessibles sur le Site Internet […] »

Et bien, comme le suggère le site, dans un jargon juridique qui n’est pas nécessairement accessible à tous, oui le scraping sur SeLoger est entièrement légal!

Comme le souligne l’article L342-3 du code de la propriété intellectuelle, lorsqu’une base de données est mise à disposition du publique, celui-ci ne peut interdire la récupération des données.

Et ce à deux conditions:

une partie dite “non-substantielle” uniquement
l’utilisateur a accès aux données de façon “licite”

En d’autres termes, totalement légal de le faire, tant que vous en récupérer une petite partie, dite “non substantielle”.

Pour avoir un aperçu complet de nos informations à ce sujet, n’hésitez pas à consulter notre article dédié, juste là: https://lobstr.io/blog/data-scraping-illegal.

Attention, c’est en anglais. Crustacé et polyglotte.

Guide complet

1. bot-mitigation

Scraper SeLoger? C’est simple comme bonjour!

En suivant le tutoriel de requests, et avec quelque lignes de code, on peut avoir quelque chose de très simple, comme suit:

import requests  # on importe la librairie
response = requests.get('https://seloger.com'  # on visite la page d'accueil
with open("response.html", "w") as f:  # on enregistre dans un fichier
    f.write(response.text)
f

En ouvrant le fichier avec Chrome pourtant…. Patatra…

Aucune donnée disponible. Et 2 obstacles sérieux se dressent devant nous:

il y un captcha
il faut activer javascript

Et c’est bien normal, SeLoger utilise un service de bot-mitigation, datadome, qui limite l’accès au site. Dès lors, comment contourner la bot mitigation de datadome?

C’est très simple, il suffit d’aller sur le site, et de procéder comme suit:

ouvrir Google Chrome
clique-droit puis “Inspecter”
se rendre dans la partie “Network”
actualiser la page
identifier la requête HTML
cliquer sur la requête puis ‘Copy as CURL’

Comme illustré juste ici:

Et en collant le curl directement dans notre ligne de commande… Cette fois c’est la bonne!

En d’autres termes, datadome nous fait passer différents tests - que notre navigateur Chrome résout passivement - et nous affecte un cookie, qui va ensuite nous permettre naviguer sans encombre sur le site.

Qui montre cookie montre patte blanche…

🍪

On retrouve d’ailleurs un cookie ‘datadome’ directement depuis notre curl:

NB: attention, le cookie expire rapidement, et vous devrez systématiquement le générer à la main. Si vous voulez collecter de la donnée at scale, de façon entièrement programmatique, essayez notre scraper prêt-à-l’emploi disponible ici. A lancer en deux clics.

2. browsing

Le scraping, ou collecte de données en bon français, se décompose en 2 parties:

browsing (ou navigation) — la façon dont on se déplace sur le site
parsing — la récupération des attributs sur une page

Dans cette première partie, nous allons donc nous concentrer sur la navigation. Comment naviguer sur le site?

Tout d’abord, nous allons nous rendre sur notre cher site d’immobilier. Et choisir la liste de biens que nous souhaitons récupérer. Puisque l’été bat son plein… direction la Corse! Et pour le type de bien, allons-y gaiement: “acheter, maison”.

Avec ses vues renversantes, et son patrimoine naturel intacte:

Et voilà!

Une fois les critères sélectionnés, pensez à récupérer l’URL de recherche — et à le conserver précieusement. Nous allons en avoir besoin pour la suite: https://www.seloger.com/list.htm?projects=2&types=2&places=[{%22divisions%22:[2248]}]&mandatorycommodities=0&enterprise=0&qsVersion=1.0&m=search_refine-redirection-search_results.

Tout comme réalisé précédemment, pour trouver la requête qui met à disposition les données, rien de plus simple:

ouvrir Google Chrome
clique-droit puis “Inspecter”
se rendre dans la partie “Network”

Une fois ces 3 premières étapes terminées, voilà ce que vous allez avoir sous les yeux:

Ensuite, c’est très simple:

identifier et copier un mot clé sur la page
actualiser la page
coller le dans l’outil de recherche
appuyer sur entrée
cliquer sur la requête puis ‘Copy as CURL’

e.g. “Bastia Immobilier” — que nous avons identifié sur la page, et que nous allons cherché dans la partie réseau… et voila!

La requête dont nous avions besoin est désormais en notre possession. Nous allons désormais nous rendre sur ce site: https://curl.trillworks.com/. Et coller l’URL, afin de directement la transformer en requête Python.

Comme suit:

Et voilà ce que ça donne en Python:

import requests

cookies = $COOKIES
headers = $HEADERS

response = requests.get('https://www.seloger.com/list.htm?projects=2&types=2&places=\\[\\{%22divisions%22:\\[2248\\]\\}\\]&mandatorycommodities=0&enterprise=0&qsVersion=1.0&m=search_refine-redirection-search_results.', cookies=cookies, headers=headers)
f

NB: pour des raisons d’affichage, la taille des ‘cookies’ et des ‘headers’ ont été volontairement réduites

Maintenant que nous avons récupéré les données brutes, il ne nous reste plus qu’à récupérer les attributs dont nous avons besoin.

Allons-y!

3. parsing

Dans le cadre de ce tutoriel, nous allons récupérer les 3 attributes principaux de chaque annonce:

l’URL de l’annonce — qui correspond à son identifiant unique
le prix
le titre

Comme présent sur cet imprimé écran:

Nous allons d’abord transformer la réponse HTML en un arbre structuré, avec la librairie lxml:

from lxml import html
...
doc = html.fromstring(response.content)
f

Ensuite, nous allons identifier l’élément HTML, via son xPath qui contient l’ensemble des données de chaque annonce.

On clique-droit, puis ‘Inspecter’, et la voilà! Il s’agit d’une div, dont l’attribut data-test contient le mot clé sl.card-container:

div_xpath = "//div[@data-test='sl.card-container']"
f

Et qu’on retrouve bien sur cet imprimé écran:

On va maintenant visiter chaque élément d’annonce, et dans chaque div récupérer nos trois attributs, à partir de leur xPath. De la même façon donc, pour chacun des 3 attributs, voilà les xPath correspondants:

url_xpath = "//div[contains(@class, 'Card__ContentZone')]/a[contains(@name, 'classified-link') and contains(@class, 'CoveringLink')]/@href"
price_xpath = "//div[@data-test='sl.price-label']/text()"
title_xpath = "//div[@data-test='sl.title']/text()"
f

NB: si vous voulez en savoir plus sur les xPath, on vous conseille le très bon cours de w3schools, parfait pour démarrer, avec des éléments théoriques courts et précis, et des exercices pratiques à faire directement sur le site.

Et voilà!

Il nous suffit maintenant d’enregistrer les données dans un .csv, et le tour est joué. Voilà un joli set de données, prêt à l’emploi, et proprement formaté.

Code

Vous pouvez retrouver le code en intégralité juste ici, directement disponible depuis notre github: https://github.com/lobstrio/seloger-listings-scraper-tutorial.

Exécutez le code complet en tapant le nom du script, suivi d'un -u dans le terminal. La chaîne de caractères qui suit le -u représente l’URL de recherche SeLoger, ici l’URL Corse :

$ python3 seloger_scraping_listings.py -u https://www.seloger.com/list.htm?projects=2&types=2&places=[{%22divisions%22:[2248]}]&mandatorycommodities=0&enterprise=0&qsVersion=1.0&m=search_hp_last 
f

NB: attention, pensez à bien copier et coller les cookies récupérés sur le site, pour proprement contourner la bot mitigation datadome

Et voilà ce qui va apparaître directement sur votre terminal:

$ python3 20220811_demo_seloger.py -u "https://www.seloger.com/list.htm?projects=2&types=2&places=\\[\\{%22divisions%22:\\[2248\\]\\}\\]&mandatorycommodities=0&enterprise=0&qsVersion=1.0&m=search_refine-redirection-search_results."
status code 200
0 420 000 € Appartement
1 545 000 € Appartement
2 324 000 € Appartement
3 599 000 € Appartement
4 399 000 € Appartement
5 730 000 € Appartement
6 780 000 € Maison
7 849 000 € Appartement
8 720 000 € Appartement
9 499 000 € Appartement
10 149 000 € Appartement
11 739 000 € Appartement
12 527 000 € Appartement
13 595 000 € Appartement
14 562 000 € Maison 1 étage
15 129 000 € Studio
16 180 000 € Studio
17 590 000 € Appartement
18 595 000 € Appartement
19 665 000 € Maison
20 99 000 € Studio
21 469 000 € Appartement
22 527 000 € Appartement
23 549 000 € Maison de ville
24 399 000 € Appartement
~~ success
 _       _         _            
| |     | |       | |           
| | ___ | |__  ___| |_ __ __  
| |/ _ \| '_ \/ __| __/| '__|
| | (_) | |_) \__ \ |_ | |   
|_|\___/|_.__/|___/\__||_|   
f

✨

Vous retrouverez, dans le même dossier que le script, un fichier au format CSV, listings-seloger-data.csv, avec l’ensemble des données extraites. Les données sont proprement structurées, et directement exploitables.Voici un imprimé-écran ci-dessous:

Magnifique!

Limitations

Ce code devrait vous permettre de scraper rapidement une première page de résultats, et d’obtenir le lien, titre, et prix de chaque élément présent sur la page.

Toutefois, le contournement de datadome ne va fonctionner qu’un temps. Très rapidement, le cookie va expirer, et il faudra aller manuellement récupérer des cookies valides sur le site. Par ailleurs, après un certain temps, il est possible que votre adresse IP soit définitivement bloquée.

Vous entrerez alors dans une boucle de captchas ininterrompus:

Par ailleurs, il ne s’agit que d’un tutoriel de démonstration. Avec le code présenté ici, vous allez pouvoir récupérer les 3 attributs principaux de chaque listing, et uniquement les listings de la page 1.

Si vous souhaitez récupérer l’ensemble des listings, sur toutes les pages, avec plus de 27 attributs distincts, et le tout sans une ligne de code, vous pouvez utiliser notre joli crawler prêt à l’usage, disponible juste ici.

NB: avec le plan gratuit, vous pourrez collecter plus de 300 listings chaque. Sans débourser un centime. Et sans une ligne de code!

Conclusion

Et c’est la fin du tutoriel!

Dans ce tutoriel, nous avons vu comment, avec Python et Requests, contourner (temporairement et manuellement) la bot mitigation, naviguer sur le site, et scraper les attributs principaux des listings sur SeLoger.

Si bien sûr, vous souhaitez collecter l’ensemble des listings et l’ensemble de leurs attributs, n’hésitez pas à visiter directement notre boutique.

Happy scraping!

🦀