3 meilleurs outils de scraping sur SeLoger en 2022
SeLoger est une source de données fantastique. Au 15/08/2022, le site recense un peu plus de 620 185 biens à la vente, partout en France, et pas moins de 97 873 biens à la location. Ce qui en fait un acteur incontournable du marché immobilier français.
Dans ce tutoriel, nous allons donc voir ensemble les 3 meilleurs outils pour faire du scraping sur SeLoger, avec 2 solutions sans code, et 1 solution à tester avec un développeur.
A nous les belles bĂątisses!
đĄ
Legal
Avant de rentrer dans le vif du sujet, une question revient souvent sur le devant de la scĂšne: est-ce que câest lĂ©gal de faire du scraping sur SeLoger?
« l'Utilisateur s'interdit de procéder à :
l'extraction par transfert permanent ou temporaire de la totalitĂ© ou d'une partie qualitativement ou quantitativement substantielle du contenu d'une ou plusieurs des bases des donnĂ©es accessibles sur le Site Internet [âŠ] »
Et bien, comme le suggĂšre le site, dans un jargon juridique qui nâest pas nĂ©cessairement accessible Ă tous, oui le scraping sur SeLoger est entiĂšrement lĂ©gal!
Et ce Ă deux conditions:
- la rĂ©cupĂ©ration doit ĂȘtre non substantielle
- lâutilisateur a accĂšs aux donnĂ©es de façon âliciteâ
En dâautres termes, totalement lĂ©gal de le faire, tant que vous ne rĂ©cupĂ©rez pas la totalitĂ© du site, câest Ă dire une partie dite ânon substantielleâ.
Attention, câest en anglais. CrustacĂ© et polyglotte.
1. Lobstr.io
đŠ
Sans biais aucun (pince), il faut reconnaĂźtre que lâoutil est particuliĂšrement robuste.
Une fois la collecte lancĂ©e, lâinterface communique abondamment, avec des indicateurs prĂ©cis et nombreux: chronomĂštre, liste de rĂ©sultats, statut de la collecte.
Pour chaque annonce, le scraper rĂ©cupĂšre 35 attributs distincts. Avec les attributs usuels: taille de lâappartement, prix, type de bien, code postal. Et lâensemble des attributs avancĂ©s: photos, tags, URL de la visite virtuelle, tĂ©lĂ©phone de lâagence.
Par ailleurs, vous pouvez bĂ©nĂ©ficier, Ă vie, de 15 minutes dâextraction gratuite par jour. Ce qui reprĂ©sente, approx. 350 annonces rĂ©cupĂ©rables par jour totalement gratuitement. Le premier plan commence Ă 20 EUR, avec 1h de collecte par jour soit 1500 annonces par jour, ce qui en fait la solution la plus compĂ©titive du marchĂ©.
En plus de la collecte traditionnelle, vous pouvez paramétrer un lancement à heure réguliÚre. Par exemple, lancer le scraper tous les jours de la semaine à 8h du matin. Et vous allez également pouvoir recevoir vos données de façon automatique: par mail, déposé sur un bucket s3, ou directement exporté sur une googlesheet de votre choix.
A qui sâadresse cet outil de scraping?
Lobstr.io sâadresse Ă lâutilisateur qui souhaite utiliser un outil no-code robuste et simple dâutilisation, ou au dĂ©veloppeur/Ă la startup qui souhaite dĂ©ployer une solution programmatique at scale directement via lâAPI.
Pros
- UX ludique
- 15 minutes gratuites chaque jour
- 25 annonces par minutes
- 35 attributs
- collecte scalable
- lancement régulier
- export automatique
- API dédiée
Cons
- scraper non customisable
2. Axiom.ai
Lâadd-on propose par ailleurs des features additionnelles supplĂ©mentaires intĂ©ressantes, avec la possibilitĂ©, comme sur lobstr, de lancer lâautomatisation Ă frĂ©quence rĂ©pĂ©tĂ©e, ou dâexporter les donnĂ©es directement vers une googlesheet.
En termes de prix, vous pourrez profiter dâun plan gratuit Ă vie, avec 2h de collecte gratuites. Et 30h de collecte par mois Ă partir de 15 USD par mois. Une solution qui est donc approximativement 2 fois plus chĂšre que la solution prĂ©cĂ©dente, mais intĂ©ressante pour de petits volumes de donnĂ©es.
Toutefois, Ă lâusage et de façon concrĂšte, la solution ne fonctionne pas. La sĂ©lection des attributs est fastidieuse, imprĂ©cise et redondante. Et Ă notre grand dĂ©sarroi, sur les 100 lignes de donnĂ©es que nous nous attendions Ă rĂ©cupĂ©rer, seulement 2 lignes de donnĂ©es rĂ©cupĂ©rĂ©s.
Par ailleurs, la solution ne contourne pas la bot mitigation du site. AprĂšs un certain temps dâusage, un captcha apparaĂźt, et sauf erreur de ma part, il semble impossible de le rĂ©soudre de façon programmatique. C'est-Ă dire quâil ne sera ni possible de programmer une collecte rĂ©guliĂšre, ni possible de collecter de la donnĂ©e at scale.
A qui sâadresse cet outil de scraping?
Lâinterface est trĂšs ludique! mais sans surprise avec ce type dâoutil, il faut un peu de maĂźtrise pour pouvoir le paramĂ©trer de façon prĂ©cise, et obtenir des rĂ©sultats consistants dans le temps. Lâoutil s'adresse donc Ă un head of Growth, Ă lâaise avec une interface low-code, avec quelques connaissances de code.
Définitivement pas à la portée du premier venu!
Pros:
- UX trĂšs ludique
- customisation infinie
- 120 minutes par mois gratuitement
- pricing accessible
Cons:
- collecte incomplĂšte
- captcha non géré
- récupération fastidieuse des attributs
- documentation complexe
3. ScrapingBee
Nous allons voir si la solution tient ses promesses!
Lâinterface est vraiment superbe! Le âRequest Builderâ a Ă©tĂ© particuliĂšrement bien pensĂ©, et permet de construire la requĂȘte de façon particuliĂšrement simple et rapide. Et en cas de doute, on peut sâappuyer sur une documentation exhaustive et prĂ©cise.
Du cÎté de l'UX, c'est à nouveau un grand plaisir. On va pouvoir générer du code dans toutes les langues, et de la possibilité de lancer le code en appuyant simplement sur un bouton.
CĂŽtĂ© prix, vous disposez de 1000 crĂ©dits gratuits. Avec des prix OK: 100 000 crĂ©dits pour 50 USD, soit approx. 1500 pages de rĂ©sultats par mois. 3 fois plus cher que lobstr, mais toutefois accessible. Par ailleurs, le nombre de crĂ©dits consommĂ©s par requĂȘte est clair, et pas de facturation en cas dâerreur. De ce cĂŽtĂ©-lĂ , la promesse est tenue. You shall pass, or you shall not pay.
đ§ââïž
@scrapingbee, si vous passez par lĂ et que la solution fonctionne Ă nouveau, nâhĂ©sitez pas Ă nous solliciter pour quâon puisse mettre Ă jour notre sĂ©rie de tests!
A qui sâadresse cet outil de scraping?
A un ou des dĂ©veloppeurs! Qui ont envie de dĂ©velopper leur propre script de scraping, avec les avantages que ça comporte: flexibilitĂ©, rapiditĂ© d'intervention, propriĂ©tĂ© intellectuelle. Attention, il faut donc absolument sây connaĂźtre en dĂ©veloppement informatique.
A cette condition toutefois, et sous rĂ©serve que lâoutil fonctionne Ă nouveau, il sâagit dâune jolie solution de scraping, claire, facile Ă utiliser et prĂ©cisĂ©ment documentĂ©e.
Pros:
- UX trĂšs clair
- documentation exhaustive
- lancement facile
- données bruts
- 1000 crédits gratuits
- 50 USD avec approx. 1500 pages de données
Cons:
- ne fonctionne pas (!)
- il faut savoir coder
Conclusion
Et voilà , la phase de test est terminée!
Au final, lobstr est la seule solution qui permette une collecte valide, exhaustive et compĂ©titive. Les deux autres solutions semblent chacune intĂ©ressantes, avec des promesses fortes de souplesse et de flexibilitĂ©. Toutefois, Ă lâĂ©preuve du rĂ©elle, aucune ne parvient Ă renvoyer des donnĂ©es prĂ©cises et exhaustives, et ce de façon rĂ©pĂ©tĂ©e dans le temps.
Un test unique nâest toutefois jamais suffisant pour sâassurer de la viabilitĂ© dâune solution. NâhĂ©sitez pas Ă tester Ă©galement de votre cĂŽtĂ©, et Ă vous forger votre propre opinion!
En espĂ©rant que cet article vous aura donnĂ© des pistes utiles dâexploration.
Happy scraping!
đŠ
Co-founder @ lobstr.io depuis 2019. Fou de la data et amoureux zélé du lowercase. Je veille à ce que vous ayez toujours la donnée que vous voulez.