3 meilleurs outils de scraping sur SeLoger en 2022

Sasha Bouloudnine ●
September 1, 2022
●
8 min read

SeLoger est une source de données fantastique. Au 15/08/2022, le site recense un peu plus de 620 185 biens à la vente, partout en France, et pas moins de 97 873 biens à la location. Ce qui en fait un acteur incontournable du marché immobilier français.

Par ailleurs, selon cet excellent article de Immomatin, qui reprend un rating de MĂ©diamĂ©trie d’octobre 2019 basĂ© sur un panel de 25 000 internautes, le site a accueilli en Octobre 2019 plus de 6,36 millions de visites uniques. Le site se place donc en solide seconde position, derriĂšre leboncoin avec 12,08 millions, et Bien’ici avec 3,94 millions.

Dans ce tutoriel, nous allons donc voir ensemble les 3 meilleurs outils pour faire du scraping sur SeLoger, avec 2 solutions sans code, et 1 solution à tester avec un développeur.

A nous les belles bĂątisses!

🏡

Avant de rentrer dans le vif du sujet, une question revient souvent sur le devant de la scĂšne: est-ce que c’est lĂ©gal de faire du scraping sur SeLoger?

Et pour cause, les CGUs du site précise comme suit:

« l'Utilisateur s'interdit de procéder à :

l'extraction par transfert permanent ou temporaire de la totalitĂ© ou d'une partie qualitativement ou quantitativement substantielle du contenu d'une ou plusieurs des bases des donnĂ©es accessibles sur le Site Internet [
] »

Et bien, comme le suggĂšre le site, dans un jargon juridique qui n’est pas nĂ©cessairement accessible Ă  tous, oui le scraping sur SeLoger est entiĂšrement lĂ©gal!

Comme le souligne l’article L342-3 du code de la propriĂ©tĂ© intellectuelle, lorsqu’une base de donnĂ©es est mise Ă  disposition du public, celui-ci ne peut interdire la rĂ©cupĂ©ration des donnĂ©es.

Et ce Ă  deux conditions:

  1. la rĂ©cupĂ©ration doit ĂȘtre non substantielle
  2. l’utilisateur a accĂšs aux donnĂ©es de façon “licite”

En d’autres termes, totalement lĂ©gal de le faire, tant que vous ne rĂ©cupĂ©rez pas la totalitĂ© du site, c’est Ă  dire une partie dite “non substantielle”.

Pour avoir un aperçu complet de nos informations Ă  ce sujet, n’hĂ©sitez pas Ă  consulter notre article dĂ©diĂ©, juste lĂ : https://lobstr.io/blog/data-scraping-illegal.

Attention, c’est en anglais. CrustacĂ© et polyglotte.

1. Lobstr.io

Lobstr.io est une sociĂ©tĂ© crĂ©Ă©e en 2019, et basĂ©e en France. Nous vous permettons de scraper la donnĂ©e dont vous avez besoin. Avec deux offres distinctes: vous pouvez soit collecter de la donnĂ©e Ă  partir de l’un des scrapers dĂ©jĂ  dĂ©veloppĂ© et prĂ©sent sur notre boutique, soit faire une demande auprĂšs de l’équipe technique et dĂ©velopper prĂ©cisĂ©ment le robot dont vous avez besoin.

🩀

Sans biais aucun (pince), il faut reconnaütre que l’outil est particuliùrement robuste.

Tout d’abord, l’UX est simple Ă  prendre en main, et particuliĂšrement intuitive. Il suffit de choisir le scraper depuis notre boutique, prĂ©cisĂ© votre URL de recherche SeLoger e.g. https://www.seloger.com/list.htm?projects=2&types=2,4,1,9,12,14,13,11,3,10 et appuyer sur “Launch”. Facile!

Une fois la collecte lancĂ©e, l’interface communique abondamment, avec des indicateurs prĂ©cis et nombreux: chronomĂštre, liste de rĂ©sultats, statut de la collecte.

Pour chaque annonce, le scraper rĂ©cupĂšre 35 attributs distincts. Avec les attributs usuels: taille de l’appartement, prix, type de bien, code postal. Et l’ensemble des attributs avancĂ©s: photos, tags, URL de la visite virtuelle, tĂ©lĂ©phone de l’agence.

Par ailleurs, vous pouvez bĂ©nĂ©ficier, Ă  vie, de 15 minutes d’extraction gratuite par jour. Ce qui reprĂ©sente, approx. 350 annonces rĂ©cupĂ©rables par jour totalement gratuitement. Le premier plan commence Ă  20 EUR, avec 1h de collecte par jour soit 1500 annonces par jour, ce qui en fait la solution la plus compĂ©titive du marchĂ©.

En plus de la collecte traditionnelle, vous pouvez paramétrer un lancement à heure réguliÚre. Par exemple, lancer le scraper tous les jours de la semaine à 8h du matin. Et vous allez également pouvoir recevoir vos données de façon automatique: par mail, déposé sur un bucket s3, ou directement exporté sur une googlesheet de votre choix.

Enfin, pour les plus nerds d’entre vous, vous pouvez piloter le lancement et la rĂ©cupĂ©ration du robot directement depuis notre API documentĂ©e, disponible ici: https://lobstrio.docs.apiary.io/.

Si vous avez besoin d'un tutoriel exhaustif, avec des démonstrations image par image, des cas d'utilisation et une description des fonctionnalités avancées, veuillez consulter notre tutoriel complet sur l'extraction des annonces SeLoger, disponible juste ici.

A qui s’adresse cet outil de scraping?

Lobstr.io s’adresse Ă  l’utilisateur qui souhaite utiliser un outil no-code robuste et simple d’utilisation, ou au dĂ©veloppeur/Ă  la startup qui souhaite dĂ©ployer une solution programmatique at scale directement via l’API.

Pros

  1. UX ludique
  2. 15 minutes gratuites chaque jour
  3. 25 annonces par minutes
  4. 35 attributs
  5. collecte scalable
  6. lancement régulier
  7. export automatique
  8. API dédiée

Cons

  1. scraper non customisable

2. Axiom.ai

Axiom.ai est une sociĂ©tĂ© allemande, crĂ©Ă©e en 2018, et basĂ©e Ă  Berlin en Allemagne. Sehr erfreut! GrĂące Ă  leur add-on Chrome, vous pouvez construire directement depuis votre navigateur l’automatisation qu’il vous plaĂźt, en sĂ©lectionnant avec votre souris les zones de texte Ă  rĂ©cupĂ©rer, et la façon dont vous passez Ă  la page suivante.

Disons le clairement ici: il s’agit du produit avec l’utilisation la plus fluide et la plus ludique du marchĂ©! Il suffit de tĂ©lĂ©charger l’add-on Chrome, vous rendre sur le site de SeLoger sur l’URL ciblĂ© e.g. https://www.seloger.com/list.htm?projects=2&types=2,4,1,9,12,14,13,11,3,10. Ensuite cliquer sur les zones sur lesquelles on souhaite rĂ©cupĂ©rer les donnĂ©es — lĂ  oĂč se trouve le titre, le prix ou le type d’appartement. Et enfin prĂ©ciser la façon dont vous souhaitez passer Ă  la page suivante. Ici en cliquant sur le bouton suivant.

L’add-on propose par ailleurs des features additionnelles supplĂ©mentaires intĂ©ressantes, avec la possibilitĂ©, comme sur lobstr, de lancer l’automatisation Ă  frĂ©quence rĂ©pĂ©tĂ©e, ou d’exporter les donnĂ©es directement vers une googlesheet.

En termes de prix, vous pourrez profiter d’un plan gratuit Ă  vie, avec 2h de collecte gratuites. Et 30h de collecte par mois Ă  partir de 15 USD par mois. Une solution qui est donc approximativement 2 fois plus chĂšre que la solution prĂ©cĂ©dente, mais intĂ©ressante pour de petits volumes de donnĂ©es.

Toutefois, Ă  l’usage et de façon concrĂšte, la solution ne fonctionne pas. La sĂ©lection des attributs est fastidieuse, imprĂ©cise et redondante. Et Ă  notre grand dĂ©sarroi, sur les 100 lignes de donnĂ©es que nous nous attendions Ă  rĂ©cupĂ©rer, seulement 2 lignes de donnĂ©es rĂ©cupĂ©rĂ©s.

Par ailleurs, la solution ne contourne pas la bot mitigation du site. AprĂšs un certain temps d’usage, un captcha apparaĂźt, et sauf erreur de ma part, il semble impossible de le rĂ©soudre de façon programmatique. C'est-Ă  dire qu’il ne sera ni possible de programmer une collecte rĂ©guliĂšre, ni possible de collecter de la donnĂ©e at scale.

A qui s’adresse cet outil de scraping?

L’interface est trĂšs ludique! mais sans surprise avec ce type d’outil, il faut un peu de maĂźtrise pour pouvoir le paramĂ©trer de façon prĂ©cise, et obtenir des rĂ©sultats consistants dans le temps. L’outil s'adresse donc Ă  un head of Growth, Ă  l’aise avec une interface low-code, avec quelques connaissances de code.

Définitivement pas à la portée du premier venu!

La documentation semble toutefois de bonne qualité, et prometteuse pour celui qui a du temps à y consacrer.

Pros:

  1. UX trĂšs ludique
  2. customisation infinie
  3. 120 minutes par mois gratuitement
  4. pricing accessible

Cons:

  1. collecte incomplĂšte
  2. captcha non géré
  3. récupération fastidieuse des attributs
  4. documentation complexe

3. ScrapingBee

Scrapingbee.com est une sociĂ©tĂ© française, crĂ©Ă©e en 2019, et basĂ©e (elle aussi!) en France. Elle propose Ă  ses utilisateurs une API de scraping, avec la promesse forte suivante: utiliser leur API et ne plus jamais ĂȘtre bloquĂ© par un outil de bot mitigation. Avec la prise en charge des headers, des proxies, ou de l’activation javascript.

SeLoger est pourtant particuliĂšrement bien protĂ©gĂ©, puisqu’il travaille avec Datadome, une sociĂ©tĂ© française spĂ©cialisĂ©e dans la bot-mitigation, comme nous l’avons dĂ©crit abondamment ici. La sociĂ©tĂ© se charge de dĂ©tecter les visiteurs dits “indĂ©sirables”, c’est Ă  dire les “robots” pour dĂ©crire ça grossiĂšrement, et de les Ă©liminer.

Nous allons voir si la solution tient ses promesses!

L’interface est vraiment superbe! Le ‘Request Builder’ a Ă©tĂ© particuliĂšrement bien pensĂ©, et permet de construire la requĂȘte de façon particuliĂšrement simple et rapide. Et en cas de doute, on peut s’appuyer sur une documentation exhaustive et prĂ©cise.

Du cÎté de l'UX, c'est à nouveau un grand plaisir. On va pouvoir générer du code dans toutes les langues, et de la possibilité de lancer le code en appuyant simplement sur un bouton.

CĂŽtĂ© prix, vous disposez de 1000 crĂ©dits gratuits. Avec des prix OK: 100 000 crĂ©dits pour 50 USD, soit approx. 1500 pages de rĂ©sultats par mois. 3 fois plus cher que lobstr, mais toutefois accessible. Par ailleurs, le nombre de crĂ©dits consommĂ©s par requĂȘte est clair, et pas de facturation en cas d’erreur. De ce cĂŽtĂ©-lĂ , la promesse est tenue. You shall pass, or you shall not pay.

đŸ§™â€â™‚ïž

Malheureusement, malgrĂ© nos multiples essais, la solution ne fonctionne pas. Nous avons bien sĂ©lectionnĂ© les options les plus furtives, afin de contourner la bot mitigation Datadome, mais le rĂ©sultat reste le mĂȘme: 500 failure!

@scrapingbee, si vous passez par lĂ  et que la solution fonctionne Ă  nouveau, n’hĂ©sitez pas Ă  nous solliciter pour qu’on puisse mettre Ă  jour notre sĂ©rie de tests!

A qui s’adresse cet outil de scraping?

A un ou des dĂ©veloppeurs! Qui ont envie de dĂ©velopper leur propre script de scraping, avec les avantages que ça comporte: flexibilitĂ©, rapiditĂ© d'intervention, propriĂ©tĂ© intellectuelle. Attention, il faut donc absolument s’y connaĂźtre en dĂ©veloppement informatique.

A cette condition toutefois, et sous rĂ©serve que l’outil fonctionne Ă  nouveau, il s’agit d’une jolie solution de scraping, claire, facile Ă  utiliser et prĂ©cisĂ©ment documentĂ©e.

Pros:

  1. UX trĂšs clair
  2. documentation exhaustive
  3. lancement facile
  4. données bruts
  5. 1000 crédits gratuits
  6. 50 USD avec approx. 1500 pages de données

Cons:

  1. ne fonctionne pas (!)
  2. il faut savoir coder

Conclusion

Et voilà, la phase de test est terminée!

Au final, lobstr est la seule solution qui permette une collecte valide, exhaustive et compĂ©titive. Les deux autres solutions semblent chacune intĂ©ressantes, avec des promesses fortes de souplesse et de flexibilitĂ©. Toutefois, Ă  l’épreuve du rĂ©elle, aucune ne parvient Ă  renvoyer des donnĂ©es prĂ©cises et exhaustives, et ce de façon rĂ©pĂ©tĂ©e dans le temps.

Un test unique n’est toutefois jamais suffisant pour s’assurer de la viabilitĂ© d’une solution. N’hĂ©sitez pas Ă  tester Ă©galement de votre cĂŽtĂ©, et Ă  vous forger votre propre opinion!

En espĂ©rant que cet article vous aura donnĂ© des pistes utiles d’exploration.

Happy scraping!

🩀

1516989175726.jpeg

Sasha Bouloudnine

Co-founder @ lobstr.io since 2019. Genuine data avid and lowercase aesthetic observer. Ensure you get the hot data you need.

Related Articles