Arrêtez de copier le net.
Scrapez le.

La récupération de données sur internet est une tâche fastidieuse et chronophage. Récupérez de façon systématique des données de qualité, tout en réduisant vos coûts d’acquisition — prenez de bonnes décisions.

CIBLAGE DE LA DONNÉE

Décrivez-nous votre besoin, la donnée qui y est associée, et les sites où vous pensez pouvoir la trouver. Il suffit de nous contacter, via le formulaire de contact. Facile.

RÉCOLTE AUTOMATISÉE

Nous développons en interne grâce à des langages éprouvés (Python, C/C++, Java) un script capable de collecter exactement la donnée qui vous est nécessaire.

TRAITEMENT ET ENVOI

Une fois la donnée extraite, elle est mise en forme par nos consultants, analysée, traitée et vous est envoyée en une fois par mail au format de votre choix (XLS, XML, .csv, JSON).

De quelle donnée avez-vous besoin ?

Rentrez le nom de votre site web, et la donnée dont vous avez besoin. Nous vous envoyons en retour un échantillon, et une proposition de devis. Vous pouvez également nous contacter directement sur Télégram/Whatsapp au numéro suivant : +33 6 95 01 61 92.

Nous pouvons (presque) tout collecter

Nous utilisons des technologies éprouvées et robustes — Java, Python, rotating IP, Selenium, Scrapy. Nous avons à cœur de nous fixer chaque jour de nouveaux défis techniques et de les relever. Nous pouvons collecter des données depuis des sites JavaScript/Ajax, du CAPTCHA, du blacklisting d’IP etc. Nos outils sont à la fois robustes, et performants.

LEAD-GENERATION

Obtenez des leads pertinents et utiles pour votre business en utilisant des techniques de scraping ciblées. Enrichissez votre donnée d’emails, de numéros de téléphone et de profils de social media pour vos campagnes marketing.

PRIX, CONCURRENTS & REVIEWS

Obtenez les prix, les catégories, l’inventaire, les reviews de votre boutique d’eCommerce ou de celle de votre concurrent — Amazon, eBay, Shopify. Piloter la chaîne de distribution affilliée, et gagner des parts de marché.

FINANCE & MARCHÉ

Nous vous aiderons à fouiller parmi les infos financières, et nous vous fournirons les tendances de marché et les sujets industriels afin que vous investissiez vite et bien (Yahoo Finance, Boursorama)

RECRUTEMENT & CAPITAL HUMAIN

Trouver les meilleurs candidats pour votre société, et renseignez vous sur les profiles engagés par vos concurrents (Linkedin, Viadeo). Aggregats d’emplois, ou composition d’un board — tout ça peut être scrappé, vite.

SOCIAL MEDIA

Collecter toutes les données issues des médias sociaux. Récolter toutes les données par mot clé, par hashtag, par nom d’utilisateur. Mesurer le reach et l’efficacité de vos campagnes : Facebook, Twitter, Instagram.

HOTEL, TOURISME & AIRLINES

Collecter de la donnée depuis les sites de voyages (trivago, kayak, booking). Extraire les reviews, les prix ou les disponibilités de chambre, ainsi que le prix des billets d’avion. Les données sont fraîches, et distribuées régulièrement.

IMMOBILIER & LOGEMENT

Scraper les annonces immobilières, les studios, les appartements, les maisons, les courtiers, les agences immobilières : Leboncoin, Airbnb, Seloger. Garder un oeil sur les nouvelles annonces en mettant en place une alerte par mail.

NEWS & CONTENU WEB

Collectez et synthéthiser toutes les données passées ou présentes à propos d’un sujet traité par les blogs et les média d’actualité, à plus de 3000 pages par seconde. Google News, Le Monde, Le Figaro.

Pricing

La gamme de prix est indexée sur la taille des données à collecter, la difficulté technique de collecte (rotating IP, captcha, Ajax/JS) et la fréquence de livraison souhaitée. Un prix simple, pour des demandes sur-mesure.

SAMPLE

100 premiers items, le site de votre choix, gratuitement.

Gratuit

COMMENCER

EXPRESS

Jusqu’à 10 sites, donnée extraite et livrée en 5 jours ouvrés.

Dès 250€ par site

COMMENCER

SUR-MESURE

Robots d’indexation créés à la demande, API dédiée.

À partir de 2000€ par an

COMMENCER

Portfolio

Boostez votre acquisition de données avec des solutions éprouvées sur des sites de référence.

Leboncoin Annonces

Extraire les noms, type, prix, taille, localisation, caractéristiques en tout genre sur le site de petits annonces.

Linkedin Mail

Extraire les prénoms et noms de leads cibles, le nom de domaine d’entreprise, connexion avec Hunter.io.

Pages Jaunes Info Entreprise

Extraires les noms, adresses, sites internet, photos, numéros de téléphone de professionnels.

Angel List Info Entreprise

Extraire les noms, levée de fonds, région, adresse mail, fondateurs, emplois proposés de strartups partout dans le monde.

Robot Contact Booster

Envoyer automatiquement des messages sur des sites avec plateforme de messagerie interne (Linkedin, Leboncoin, Superprof, Meilleursagents…)

Amazon Price Finder

Extraire les noms d’objets, les quantités, et réaliser des veilles quotidiennes de prix concurrentiel.

Outils techniques

Rotating IP, switching User Agent, Headless Browser : nous avons réussi à relever de nombreux techniques et nous en sommes fiers.

Python

Python est un langage de programmation objet, multi-paradigme et multiplateformes. Il favorise la programmation impérative, fonctionnelle et orientée objet. Il est particulièrement utilisée dans le data mining, et l’analyse de données. Nous aimons Python.

En savoir plus

Switching User Agent

Quand un internaute visite une page Web, une chaîne de caractères est généralement envoyée au serveur pour identifier « l’agent utilisateur » ou User Agent. Elle donne des informations comme le nom de l’application, la version, le système d’exploitation, la langue, etc.

En savoir plus

Scrapy

Scrapy est un framework open-source qui permet la création de robots d’indexation pour des sites statiques à fort volume de données. Développé en Python, il est un outil robuste et puissant, qui permet une acquisition de données rapide et indétectable.

En savoir plus

Headless Browser

Les navigateurs « headless », ou navigateurs sans tête permettent d’automatiser les contrôles d’une page web. Ils permettent d’extraire de façon rapide et méthodique des sites dynamiques (Ajax/JavaScript). Pas d’affichage visuelle, pas d’attente supplémentaire.

En savoir plus

Selenium

Selenium WebDriver, successeur de Selenium Remote Control (RC), permet d’écrire des tests d’automation dans certains langages de programmation (Python,  Java, notamment), ainsi que des robots d’indexation. Très utile pour les sites dynamiques (Ajax/JavaScript).

En savoir plus

Rotating IP

Les IP statiques sont parfois bloquées par des sites malheureusment tatillons. Heureusement, nous disposons de centaines d’IPs en France et en Europe, qui se succèdent lors des requêtes de façon dynamique. Rien ne nous arrête.

En savoir plus

Notre équipe

Nous sommes fiers de nos diplômes, de nos expériences et de notre expérience-client dans des secteurs exigeants à forte croissance. Mais c’est surtout la complémentarité de nos profils que nous sommes fiers de mettre en avant.

Sasha Bouloudnine

CEO Riche d’une expérience de Data Scientist chez Amazon, Sasha a créé sa première société en 2017. Média, littérature, vente en ligne, conseil, cet entrepreneur curieux et multi-sectoriel avance avec pour obsession l’écoute attentive du client, et sa satisfaction. Sasha est diplômé de l’Essec, majeur Entrepreneuriat et Data Science.

Simon Rochwerg

CTO Après une expérience analytique riche en finance de marché (Société Générale, BNP Paribas), Simon s’est formé en autodidacte aux métiers du génie informatique. Il aime bâtir des scripts robustes et ingénieux, en Python et Java. Simon est diplômé de l’Université Paris-Dauphine, et de l’Ecole nationale des ponts et chaussées.

Nos dernières idées sur le sujet

La technologie de collecte de données — scraping, ou webscraping en anglais — évolue vite. Création d’API, IP rotative, webbrowser dynamique, résumé des contenus, stockage sur des bases de données, utilisations de librairies adaptées (Selenium, Scrapy…) : nous essayons de vous faire partager aussi simplement que possible les défis techniques que nous rencontrons chaque jour.

Comment scraper les titres des articles sur LeMonde.fr avec Python 3 et Requests

Nous allons en utilisant Python 3, Requests, et lxml, collecter l’ensemble des titres des articles du site lemonde.fr, puis en tirer des conclusions sur les sujets du moment qui agite le pays et le monde médiatique français.

Read more

Comment faire des Requêtes Anonymes en utilisant TorRequests et Python

Dans ce tutoriel, nous allons voir comment installer Tor avec Python, et comment collecter des données anonymement. Attention les yeux..

Read more
twitter-donald-trump-main

Comment scraper les Tweets de Donal Trump sur Twitter avec Python 3 et Requests

Dans ce tutoriel, en utilisant Python 3, Requests, et lxml, nous allons collecter l’ensemble des Tweets de ce brave Donal Trump, et les afficher dans la console. IT’S HUGE GOAL !

Read more

Arrêtez de copier le net. Scrapez le.