3 meilleurs outils de scraping sur SeLoger en 2022

Sasha Bouloudnine●
September 1, 2022

●
8 min read

SeLoger est une source de données fantastique. Au 15/08/2022, le site recense un peu plus de 620 185 biens à la vente, partout en France, et pas moins de 97 873 biens à la location. Ce qui en fait un acteur incontournable du marché immobilier français.

Par ailleurs, selon cet excellent article de Immomatin, qui reprend un rating de MĂ©diamĂ©trie d’octobre 2019 basĂ© sur un panel de 25 000 internautes, le site a accueilli en octobre 2019 plus de 6,36 millions de visites uniques. Le site se place donc en solide seconde position, derriĂšre leboncoin avec 12,08 millions, et Bien’ici avec 3,94 millions.

Dans ce tutoriel, nous allons donc voir ensemble les 3 meilleurs outils pour faire du scraping sur SeLoger, avec 2 solutions sans code, et 1 solution à tester avec un développeur.

A nous les belles bĂątisses!

🏡

Avant de rentrer dans le vif du sujet, une question revient souvent sur le devant de la scĂšne : est-ce que c’est lĂ©gal de faire du scraping sur SeLoger?

Et pour cause, les CGUs du site prĂ©cisent comme suit :

« l'Utilisateur s'interdit de procĂ©der Ă  :

l'extraction par transfert permanent ou temporaire de la totalitĂ© ou d'une partie qualitativement ou quantitativement substantielle du contenu d'une ou plusieurs des bases des donnĂ©es accessibles sur le Site Internet [
] »

Et bien, comme le suggĂšre le site, dans un jargon juridique qui n’est pas nĂ©cessairement accessible Ă  tous, oui le scraping sur SeLoger est entiĂšrement lĂ©gal!

Comme le souligne l’article L342-3 du code de la propriĂ©tĂ© intellectuelle, lorsqu’une base de donnĂ©es est mise Ă  disposition du public, celui-ci ne peut interdire la rĂ©cupĂ©ration des donnĂ©es.

Et ce Ă  deux conditions:

  1. la rĂ©cupĂ©ration doit ĂȘtre non substantielle
  2. l’utilisateur a accĂšs aux donnĂ©es de façon “licite”

En d’autres termes, totalement lĂ©gal de le faire, tant que vous ne rĂ©cupĂ©rez pas la totalitĂ© du site, c’est-Ă -dire une partie dite “non substantielle”.

Pour avoir un aperçu complet de nos informations Ă  ce sujet, n’hĂ©sitez pas Ă  consulter notre article dĂ©diĂ©, juste lĂ : https://lobstr.io/blog/data-scraping-illegal.

Attention, c’est en anglais. CrustacĂ© et polyglotte.

1. Lobstr.io

Lobstr.io est une sociĂ©tĂ© crĂ©Ă©e en 2019, et basĂ©e en France. Nous vous permettons de scraper la donnĂ©e dont vous avez besoin. Avec deux offres distinctes: vous pouvez soit collecter de la donnĂ©e Ă  partir de l’un des scrapers dĂ©jĂ  dĂ©veloppĂ©s et prĂ©sents sur notre boutique, soit faire une demande auprĂšs de l’équipe technique et dĂ©velopper prĂ©cisĂ©ment le robot dont vous avez besoin.

🩀

image7.png

Sans biais aucun (pince), il faut reconnaütre que l’outil est particuliùrement robuste.

Tout d’abord, l’UX est simple Ă  prendre en main, et particuliĂšrement intuitive. Il suffit de choisir le scraper depuis notre boutique, prĂ©ciser votre URL de recherche SeLoger (par exemple: https://www.seloger.com/list.htm?projects=2&types=2,4,1,9,12,14,13,11,3,10) et appuyer sur “Launch”. Facile!

Une fois la collecte lancĂ©e, l’interface communique abondamment, avec des indicateurs prĂ©cis et nombreux: chronomĂštre, liste de rĂ©sultats, statut de la collecte.

Pour chaque annonce, le scraper rĂ©cupĂšre 35 attributs distincts. Avec les attributs usuels: taille de l’appartement, prix, type de bien, code postal. Et de nombreux attributs avancĂ©s: photos, tags, URL de la visite virtuelle, tĂ©lĂ©phone de l’agence.

Par ailleurs, vous pouvez bĂ©nĂ©ficier, Ă  vie, de 15 minutes d’extraction gratuite par jour. Ce qui reprĂ©sente, environ 350 annonces rĂ©cupĂ©rables par jour totalement gratuitement. Le premier plan commence Ă  20 EUR, avec 1h de collecte par jour soit 1500 annonces par jour, ce qui en fait la solution la plus compĂ©titive du marchĂ©.

En plus de la collecte traditionnelle, vous pouvez paramétrer un lancement à heure réguliÚre. Par exemple, lancer le scraper tous les jours de la semaine à 8h du matin. Et vous allez également pouvoir recevoir vos données de façon automatique: par mail, déposées sur un bucket s3, ou directement exportées sur une googlesheet de votre choix.

Enfin, pour les plus nerds d’entre vous, vous pouvez piloter le lancement et la rĂ©cupĂ©ration du robot directement depuis notre API documentĂ©e, disponible ici: https://docs.lobstr.io/.

Si vous avez besoin d'un tutoriel détaillé, avec des démonstrations image par image, des cas d'utilisation et une description des fonctionnalités avancées, veuillez consulter notre tutoriel complet sur l'extraction des annonces SeLoger, disponible juste ici.

A qui s’adresse cet outil de scraping?

Lobstr.io s’adresse Ă  l’utilisateur qui souhaite utiliser un outil no-code robuste et simple d’utilisation, ou au dĂ©veloppeur/Ă  la startup qui souhaite dĂ©ployer une solution programmatique at scale directement via l’API.

Pros

  1. UX ludique
  2. 15 minutes gratuites chaque jour
  3. 25 annonces par minute
  4. 35 attributs
  5. Collecte scalable
  6. Lancement régulier
  7. Export automatique
  8. API dédiée

Cons

  1. Scraper non customisable

2. Axiom.ai

Axiom.ai est une sociĂ©tĂ© allemande, crĂ©Ă©e en 2018, et basĂ©e Ă  Berlin en Allemagne. Sehr erfreut! GrĂące Ă  leur add-on Chrome, vous pouvez construire directement depuis votre navigateur l’automatisation qu’il vous plaĂźt, en sĂ©lectionnant avec votre souris les zones de texte Ă  rĂ©cupĂ©rer, et la façon dont vous passez Ă  la page suivante.
image3.png
Disons-le clairement ici: il s’agit du produit avec l’utilisation la plus fluide et la plus ludique du marchĂ©! Il suffit de tĂ©lĂ©charger l’add-on Chrome, de vous rendre sur le site de SeLoger sur l’URL ciblĂ©e (par exemple: https://www.seloger.com/list.htm?projects=2&types=2,4,1,9,12,14,13,11,3,10), puis de cliquer sur les zones oĂč se trouvent les donnĂ©es voulues — titre, prix ou type d’appartement. Enfin, vous prĂ©cisez la façon dont vous souhaitez passer Ă  la page suivante (ici en cliquant sur le bouton “suivant”).

L’add-on propose par ailleurs des fonctionnalitĂ©s additionnelles intĂ©ressantes, avec la possibilitĂ©, comme sur lobstr, de lancer l’automatisation Ă  frĂ©quence rĂ©pĂ©tĂ©e, ou d’exporter les donnĂ©es directement vers une googlesheet.

En termes de prix, vous pourrez profiter d’un plan gratuit Ă  vie, avec 2h de collecte gratuites. Et 30h de collecte par mois Ă  partir de 15 USD par mois. Une solution qui est donc environ 2 fois plus chĂšre que la solution prĂ©cĂ©dente, mais intĂ©ressante pour de petits volumes de donnĂ©es.

Toutefois, Ă  l’usage et de façon concrĂšte, la solution ne fonctionne pas. La sĂ©lection des attributs est fastidieuse, imprĂ©cise et redondante. Et Ă  notre grand dĂ©sarroi, sur les 100 lignes de donnĂ©es que nous nous attendions Ă  rĂ©cupĂ©rer, seulement 2 lignes de donnĂ©es ont Ă©tĂ© rĂ©cupĂ©rĂ©es.

image1.png

Par ailleurs, la solution ne contourne pas les dispositifs anti-robots. AprĂšs un certain temps d’usage, un captcha apparaĂźt, et sauf erreur de ma part, il semble impossible de le rĂ©soudre de façon programmatique. C’est-Ă -dire qu’il ne sera ni possible de programmer une collecte rĂ©guliĂšre, ni de collecter de la donnĂ©e Ă  grande Ă©chelle.

image5.png

A qui s’adresse cet outil de scraping?

L’interface est trĂšs ludique, mais il faut un peu de maĂźtrise pour le paramĂ©trer de façon prĂ©cise et obtenir des rĂ©sultats consistants dans le temps. L’outil s'adresse donc Ă  un head of Growth, Ă  l’aise avec une interface low-code, et disposant de quelques connaissances techniques.

Définitivement pas à la portée du premier venu!

La documentation semble toutefois de bonne qualité, et prometteuse pour celui qui a du temps à y consacrer.

Pros:

  1. UX trĂšs ludique
  2. Customisation infinie
  3. 120 minutes par mois gratuitement
  4. Pricing accessible

Cons:

  1. Collecte incomplĂšte
  2. Captcha non géré
  3. Récupération fastidieuse des attributs
  4. Documentation complexe

3. ScrapingBee

Scrapingbee.com est une sociĂ©tĂ© française, crĂ©Ă©e en 2019, et basĂ©e (elle aussi!) en France. Elle propose Ă  ses utilisateurs une API de scraping, avec la promesse suivante: utiliser leur API et ne plus jamais ĂȘtre bloquĂ© par un outil de protection anti-robot. Avec la prise en charge des headers, des proxies, ou de l’activation javascript.

SeLoger est pourtant particuliĂšrement bien protĂ©gĂ© par un systĂšme avancĂ©, repĂ©rant les “visiteurs” indĂ©sirables (robots) et les bloquant.

Nous allons voir si la solution tient ses promesses!

image2.png

L’interface est vraiment superbe! Le ‘Request Builder’ a Ă©tĂ© particuliĂšrement bien pensĂ©, et permet de construire la requĂȘte de façon particuliĂšrement simple et rapide. Et en cas de doute, on peut s’appuyer sur une documentation trĂšs dĂ©taillĂ©e.

Du cÎté de l'UX, c'est à nouveau un grand plaisir. On va pouvoir générer du code dans toutes les langues, avec la possibilité de lancer ce code en un seul clic.

CĂŽtĂ© prix, vous disposez de 1000 crĂ©dits gratuits. Avec des prix OK: 100 000 crĂ©dits pour 50 USD, soit environ 1500 pages de rĂ©sultats par mois. C’est 3 fois plus cher que lobstr, mais reste accessible. Par ailleurs, le nombre de crĂ©dits consommĂ©s par requĂȘte est clair, et pas de facturation en cas d’erreur. De ce cĂŽtĂ©-lĂ , la promesse est tenue. You shall pass, or you shall not pay.

đŸ§™â€â™‚ïž

Malheureusement, malgrĂ© nos multiples essais, la solution ne fonctionne pas. Nous avons bien sĂ©lectionnĂ© les options les plus furtives pour contourner la protection anti-bot, mais le rĂ©sultat reste le mĂȘme: erreur 500!

image6.png

@scrapingbee, si vous passez par lĂ  et que la solution fonctionne Ă  nouveau, n’hĂ©sitez pas Ă  nous solliciter pour qu’on puisse mettre Ă  jour notre sĂ©rie de tests!

A qui s’adresse cet outil de scraping?

À un ou des dĂ©veloppeurs! Qui ont envie de coder leur propre script de scraping, avec les avantages que cela comporte: flexibilitĂ©, rapiditĂ© d'intervention, propriĂ©tĂ© intellectuelle. Attention, il faut donc impĂ©rativement s’y connaĂźtre en dĂ©veloppement informatique.

À cette condition, et sous rĂ©serve que l’outil fonctionne Ă  nouveau, il s’agit d’une solution de scraping agrĂ©able Ă  utiliser et clairement documentĂ©e.

Pros:

  1. UX trĂšs claire
  2. Documentation trÚs détaillée
  3. Lancement facile
  4. Données brutes
  5. 1000 crédits gratuits
  6. 50 USD pour environ 1500 pages de données

Cons:

  1. Ne fonctionne pas (!)
  2. Il faut savoir coder

Conclusion

Et voilà, la phase de test est terminée!

Au final, lobstr.io est la seule solution qui permette une collecte valide, fiable et compĂ©titive. Les deux autres solutions semblent chacune intĂ©ressantes, avec des promesses fortes de souplesse et de flexibilitĂ©. Toutefois, Ă  l’épreuve du rĂ©el, aucune ne parvient Ă  renvoyer des donnĂ©es prĂ©cises et fiables de façon rĂ©pĂ©tĂ©e dans le temps.

Un test unique n’est toutefois jamais suffisant pour s’assurer de la viabilitĂ© d’une solution. N’hĂ©sitez pas Ă  tester Ă©galement de votre cĂŽtĂ©, et Ă  vous forger votre propre opinion!

En espĂ©rant que cet article vous aura donnĂ© des pistes utiles d’exploration.

Happy scraping!

🩀

Related Articles

Related Squids