Comment scraper un site quotidiennement en Cloud avec Selenium from A to Z ? (Partie 1/4)

Introduction :
Pour répondre à ce besoin il faut savoir faire 3 choses :
- Scraper un site (avec ou sans contenu javascript !)
- Envoyer les données sur une base de donnée en ligne
- Savoir lancer un programme quotidiennement sur un serveur Cloud
Pour scraper un site nous allons utiliser python
Pour lancer un programme en Cloud nous allons utiliser Google Cloud
Pour lancer notre programme quotidiennement nous allons utiliser crontab
Pour stocker nos données nous allons utiliser Google Sheet via son API
Pour vous apprendre à faire tout ça nous allons tenter de scraper la page web : https://www.pinnacle.com/fr/baseball/matchups/
En envoyant les matchs de baseball et leurs infos (côte, date, joueur, tournois) dans un tableau Google Sheet, et ce tous les jours depuis un serveur Cloud.
Le tutoriel peut se diviser en 4parties :
- Comment avoir un serveur Google Cloud personnel (plus bas)
- Comment mettre en place le script python de scraping sur le serveur : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-2-4-19104a48538
- Bonus : exporter les données scrapées vers Google Sheet /être notifié par mail à chaque exportation : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-3-5-93a7b99489db
- Comprendre le code contenu dans le script python et les fichiers install.sh / start_headless.sh : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-4-4-38c02f4dc040
Tous le code utilisé dans ce tuto est disponible dans mon repo Git : https://github.com/ArnaudHureaux/scraping-with-google-cloud
1) Partie 1 : Avoir un serveur Google Cloud personnel
Allez sur cette page : https://cloud.google.com/free
Connectez-vous avec votre compte Google :
- Vous avez besoin de renseigner votre carte de crédit pour avoir un compte actif et bénéficier de la première année gratuite (sans engagement, sans renouvellement automatique, aucun risque d’être prélevé si vous le décidez pas vous même)
- Si vous n’activez pas ce bouton, vous ne serez pas prélevé, laissez-le par défaut si vous ne voulez pas payer ;)
- Commencez vos “Free Trial” !
Aller dans “Compute Engine” -> “VM instances” :
Créez une nouvelle instance VM ( a new VM instance) :
Prenez la région la plus proche de votre lieu de résidence et utilisez cette configuration :
Ok, maintenant que la VM est créée, connectez-vous à celle-ci en cliquant sur le bouton SSH (en rouge) :
- Ici vous pouvez mettre vos commandes shell, comme sur un ordinateur Linux !
- Ici vous pouvez importer des fichiers et télécharger ceux présent sur la machine
Félicitation vous avez un serveur Linux opérationel !
Désormais il ne manque plus qu’à configurer ce serveur pour qu’il scrape régulièrement le site visé :)
Lien de la partie suivante : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-2-4-19104a48538
N’hésitez pas à me contacter sur linkedin pour des questions / faire connaissance : www.linkedin.com/in/arnaud-hureaux-895421159