Comment installer les librairies Python de webscraping sur Mac OS

Arrêtez de copier le net. Scrapez le.

 

Comment installer les librairies Python de webscraping sur Mac OS

Scraper le net en utilisant Python n’est pas vraiment difficile si vous utilisez un Macintosh — ou un Linux, qui sait ? Il faut simplement suivre le tutoriel que nous vous proposons ci-contre. En suivant les étapes pas à pas. Attention à vouloir aller trop vite, et griller les étapes par mégarde ! Ensuite, il faut pratiquer. Se laisser le temps de s’habituer aux outils et à l’interface de développement. Un peu de lecture, et de la patience, en somme.

Installer Python 3 et PIP sur Mac OS

Voilà les étapes à suivre:

  • Télécharger Python 3 depuis Python.org. La version 3.6.4 est la dernière disponible et stable, au moment où nous écrivons cet article. Vous pouvez le télécharger en suivant ce lien : https://www.python.org/downloads/

  • Démarrer l’installer. L’installation est simple, et fluide. Suivez les étapes, pas à pas.

  • Installer pip. pip est un gestionnaire de paquets, ou package manager. Vous pouvez ensuite installer de nombreuses librairies depuis le Python Package Index (PyPI), et explorer de nombreux domaines dans lesquelles le langage Python révèlera ses possibilités (webscraping, data science, web development, machine learning etc). Pour installer pip, il faut rentrer dans votre commande, la requête suivante :

  • Vérifier que python est bien installé. Il s’agit de rentrer la requête suivante dans votre commande :

  • Vérifier que pip est bien installé. Il s’agit de rentrer la requête suivante dans votre commande :

Et voilà, vous avez installé PIP et Python sur votre ordinateur. À présent, nous allons pouvoir installer des librairies de scripts et de fonctions, destinés ici au webscraping.

Scrapy

Scrapy est un framework open-source, développé en Python en Septembre 2009. Il dispose d’une forte communauté, offrant de nombreux modules supplémentaires. La librairie propose aux novices une utilisation simple et plutôt intuitive, notamment lorsqu’il s’agira de scraper du contenus non dynamique (HTML/CSS) sur des sites traditionnels. Scrapy propose en outre une documentation détaillée et claire. En anglais, toutefois. Vous y découvrirez les joies du scraping sur un site de citations amusantes. Bien.

Il s’agit d’entrer dans votre commande la requête suivante :

Selenium

Historiquement construit en Java, pour permettre à des applications de réaliser des tests automatisés, Selenium vous permettra de lancer à distance un web browser (Chrome, Firefox), et de naviguer à distance sur le web. Selenium peut être maintenant utiliser en Python. Vous pourrez ainsi accéder à des contenus dynamiques, en imitant le comportement d’un utilisateur. Toutefois, l’utilisation est difficile, et la documentation moins fournie. Elle s’adressera à des développeurs en herbe plus chevronnés.

Entrez la requête suivante dans votre commande :

Pour aller plus loin :

  1. Documentation Scrapy : https://doc.scrapy.org/en/latest/index.html
  2. Documentation Selenium : http://www.seleniumhq.org/docs/

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *