Comment scraper Leboncoin rapidement et gratuitement?
Overview
Au-delà du volume, colossal! chaque annonce sur leboncoin est une mine exceptionnelle d'informations. Sur une annonce immobilière, on y retrouve pêle-mêle le titre de l’annonce, mais également les images, le prix du bien, la localisation, le numéro de téléphone de l’annonceur, le nombre de pièces…
Avec un petit script Python, ça devrait le faire… Quelques lignes de code, et tada!
import requests
s = requests.Session()
s = requests.Session()
r = s.get('https://www.leboncoin.fr/ventes_immobilieres/2156084495.htm')
with open('2156084495.htm', 'w') as f:
f.write(r.text)
Dès lors, comment faire du scraping sur leboncoin, et récupérer tous les jours, sans code, sans galère, toutes les nouvelles annonces d’une catégorie donnée?
Dans cet article, on va voir comment faire ça en une trentaine de secondes. Ni plus ni moins.
🤖
Target
Tout d’abord, on va aller prendre sur leboncoin l’URL de recherche — c’est l’URL initial à partir de laquelle le robot va récupérer les annonces.
Il faut savoir se faire plaisir…
🌞
Setup
Maintenant, paramétrons l’outil de collecte en ligne! 0 ligne de code. 30 seconde top-chrono. Aussi facile que ça.
D’abord rendons-nous rapidement sur le joli outil de scraping, directement pilotable depuis une interface, juste là:
en cliquant à droite de “Output” sur le petit icône de téléchargement, vous pouvez télécharger un échantillon d’une centaine de lignes, et d’ores et déjà apprécier le format des données
L’UX a vraiment été bien pensée.
Attention, il faut bien choisir ‘Leboncoin Listings Search Export’ — et pas son alter-ego avec téléphone! L’autre crawler permet d’obtenir les précieux numéros de téléphone présents sur les annonces. Mais il faut absolument fournir un compte leboncoin. Et il n’est utilisable que si vous avez souscrit à un plan payant.
Launch
Place au lancement!
D’abord, placer l’URL précédemment sauvegardé au niveau du champ URL (1).
Par ailleurs, on ne souhaite pas collecter les annonces vieilles de plus de 24h. Une vieille annonce, c’est une annonce qui perd déjà de sa valeur. Dans le champ ‘Hours Back’, on va donc renseigner 24 (2).
Enfin, cliquez sur le joli bouton Save (3):
Sur le frame suivant, cliquez sur ‘Manually’ (4) — on ne va lancer le crawler qu’une seule fois, un clique à la main suffira.
Si vous souhaitez lancer le crawler par exemple tous les matins à 8h, vous pouvez cliquer sur ‘Repeatedly’. Plus besoin de se lever tôt le matin, et de lancer votre run à la main.On s’occupe de tout!
Et voilà, votre cluster est créé!
5 étapes, 30 secondes de déploiement. Ni plus, ni moins.
Enjoy
Vous voilà sur la page de ‘Run’, où les résultats vont directement s’afficher en temps réel. Et après quelques minutes d’attente… quel plaisir!
Conclusion
Pourtant, les outils de ‘bot-mitigation’ rendent toute collecte automatique impossible, et contraignent les usagers à une récupération de données manuelles et fastidieuse.
Happy scraping!
🦞
Co-founder @ lobstr.io depuis 2019. Fou de la data et amoureux zélé du lowercase. Je veille à ce que vous ayez toujours la donnée que vous voulez.