Étiquette : Web Scraping

Arrêtez de copier le net. Scrapez le.

google-sheet-scraping-dp0l25m

Comment scraper les résultats des Jeux Olympiques sur Wikipedia en utilisant Google Sheet ?

La collecte de données ou Web Scraping, demande souvent une installation lourde, et parfois laborieuse. Python 3, Scrapy, Beautiful Soup, Pupeeter.js. Autant d’outils techniques difficiles à utiliser, qui peuvent rebuter le néophyte.  Dans ce tutoriel, nous allons réaliser la collecte de données la plus simple qui soit. En utilisant un outil collaboratif gratuit, et simple d’utilisation,…
Lire la suite

pdf-python3-scraping-dp0l25m

Comment parser un document .pdf avec Python 3 et PDFMiner

Le format pdf, ou Portable Document Format (PDF) est un format de fichier développé dans les années 90, qui avait pour but initial de pouvoir présenter des documents toujours de la même façon, indépendamment du software, ou du hardware utilisé lors de la lecture. Voeux pieux d’harmonisation et d’unité de présentation, qui a toutefois son…
Lire la suite

captcha-pytesseract-jqhykvb

Comment contourner des Captcha simples avec Python 3 et Tesseract

Un CAPTCHA est un acronyme à la signification suivante : Completely Automated Public Turing test to tell Computers and Humans Apart. En d’autres termes, et en bon français, cela signifie que c’est un test qui permet de savoir si un utilisateur qui surfe sur le web est un humain, ou un robot. Un test de captcha simple est un…
Lire la suite

leboncoin-scraping-tn3tyfd

Connaître le prix moyen d’un objet sur leboncoin.fr avec Python 3 et Request

Lorsque l’on vend un produit sur www.leboncoin.fr, il peut être (franchement) utile de connaître le prix moyen de cet objet, de sorte que lors de la vente, on puisse le vendre à bon prix. Avec  161 millions de visites par mois, et +25 millions d’offres recensées, le site est la cible parfaite… En collectant les…
Lire la suite

coinmarketcap-scraping-16dkk2u

Comment scraper les valeurs de cryptomonnaie sur Coinmarketcap.com avec Python 3 et Request

En 2009, un développeur (ou un groupe de développeurs) de logiciels qui utilise le pseudonyme de Satoshi Nakamoto, crée le Bitcoin. Alors que la crise financière a éclaté un an plus tôt, cette technologie permet de réaliser des transactions entre pairs, et chaque transaction est inscrit collectivement au sein d’un bloc de données, dans un…
Lire la suite

Comment scraper les ASIN sur Amazon.fr avec Python 3 et Requests

Afin d’identifier ses produits, Amazon utilise un ASIN, ou, le bien nommé, Amazon Standard Identification Number. Pour publier un produit, un vendeur a besoin de ce numéro, qui une fois mis sur la base de donnée, permet de publier facilement et rapidement un produit disponible en stock. Aujourd’hui, nous allons voir comment collecter tous les…
Lire la suite

Quel est l’état du marché immobilier Français à partir des données Leboncoin.fr (Juin 2018)

Le marché immobilier français est vaste, et complexe. On y trouve de tout : des bureaux, des caves, des entrepôts, des chambres chez l’habitant, des colocations, des bureaux en open space, des boxs, et… de simples appartements. Sur leboncoin.fr, que l’on estime relativement représentatif de l’ensemble des données françaises, nous comptons au 10/06/2018, 1 533…
Lire la suite

Comment utiliser des adresses IP tournantes et des proxies avec Python 3

Lorsque vous collectez des données depuis le net, vous allez rencontrer un problème récurrent et quelque peu embêtant : les sites web peuvent bloquer votre adresse IP, et vous empêcher d’accéder aux données souhaitées. Il y a toutefois de nombreuses méthodes qui permettent de contourner ce blocage, que nous allons vous révéler, en toute amitié…
Lire la suite

lequipe_scraping_frontpic

Comment scraper la liste de tous les matchs de la Coupe du Monde 2018 sur l’Equipe avec Python et Selenium

La coupe du monde approche. Avec elle, les soirées arrosées de la fin de l’été, les stars mondiales ovationnées, les frappes de Cristiano Ronaldo ou du terrible Paul Pogba, et la ferveur de tout un pays, qui, rivé devant son écran de télévision, accompagne chaque sprint d’un cri d’espoir enflammé. Mais comment avoir facilement accès…
Lire la suite

web scraping senscritique lobstr

Comment scraper la liste des 100 meilleurs livres au monde sur SensCritique avec Python et Selenium

Choisir un livre : voilà une tâche difficile pour tout un chacun. Il faut choisir un livre qui ne soit ni trop gros, ni trop long, ni trop complexe, quoi que stimulant intellectuellement. Il faut choisir un auteur de talent, mais pas non plus un savant rebutant. Heureusement, des sites de partage de critiques en…
Lire la suite