Pipeline ETL / Scraping

Books Online Scraper

Pipeline ETL complet pour collecter, nettoyer et organiser les données de 1000 livres depuis Books to Scrape.

Aperçu du projet

Ce projet met en œuvre un pipeline ETL (Extract, Transform, Load) complet pour collecter des données depuis le site Books to Scrape. L'étape d'extraction parcourt récursivement les catégories et produits, récupérant informations et images sur un millier de livres.

La phase de transformation assure le nettoyage des données (encodage, formatage des prix, gestion des caractères spéciaux), garantissant leur qualité. Enfin, le chargement organise les résultats dans une structure de fichiers CSV et dossiers d'images cohérente.

L'architecture est optimisée pour la performance (via des sessions HTTP réutilisées) et la maintenabilité.

Défis rencontrés

Extraction récursive

Parcours automatisé de 50 catégories et 1000 pages produits avec gestion de la pagination.

Nettoyage des données

Gestion de l'encodage, formatage des prix en float et traitement des caractères spéciaux pour des CSV propres.

Performance réseau

Optimisation via la réutilisation de sessions HTTP pour réduire le temps d'exécution global.

Screenshots & Design System

Projet précédentPortfolio

Projet suivantManager de Tournois