DataPipeline.Pro

Défi
Le client a rencontré plusieurs défis, notamment :
- Absence de déploiements automatisés pour Composer/Dataflow et DBT.
- Absence de tests unitaires et de vérifications de la qualité des données.
- Configuration manuelle des environnements de développement entraînant des inefficacités.
Solution
Mise en œuvre CI/CD:
- Mise en place de pipelines automatisés en utilisant Bitbucket Pipelines.
- Déploiements automatisés pour les projets Cloud Composer, Dataflow et DBT.
- Assurer la possibilité d'intégration de tests unitaires et de vérifications de la qualité des données dans les pipelines CI.
Configuration de l'environnement de développement:
- Configuration du déploiement automatisé vers les environnements dev/prod à partir des branches de fonctionnalités.
- Établissement de processus pour une configuration manuelle minimale pendant les tests. Achèvement du projet : T4-2024
Documentation et Formation:
- Fourniture d'une documentation complète des solutions mises en œuvre.
- Organisation de sessions de formation pour l'équipe Softonic sur les nouveaux processus et outils.
Résultat
La solution mise en œuvre a abouti à :
- Déploiements entièrement automatisés, réduisant considérablement les efforts manuels.
- Qualité des données améliorée grâce à des tests unitaires et des validations intégrés.
- Configuration de l'environnement de développement rationalisée, réduisant les erreurs et améliorant l'efficacité.
- Agilité améliorée, permettant une itération et un déploiement plus rapides des flux de données.
Cette transformation du pipeline CI/CD a permis à l'équipe d'ingénierie des données du client de disposer d'un flux de travail efficace, évolutif et automatisé, permettant un déploiement sans faille et une fiabilité des données.
Technologie
- Orchestration: Airflow fonctionnant dans Cloud Composer
- Entrepôt de données: BigQuery
- Transformations: Migration vers DBT
- Ingestion: Travaux Dataflow déployés via modèles GCS
- Traitement: Travaux Python exécutés sur VMs GCE
- Reporting: QlikSense
- Contrôle de version & CI/CD: Bitbucket Pipelines

Comment ça fonctionne ?

Sources de données

bases de données cloud
base de données sur site
Fichiers Excel avec formatage "joli"
fichiers csv

Script Python

traitement des fichiers Excel avec formatage
conversion en *.csv

Pipeline Linux

Filtrage des données

Mise en scène

Chargement des données du schéma de mise en scène

Agrégation / MDS

Agrégation des données au niveau du mois
Remplissage des tables de faits intermédiaires
Chargement des datamarts MD
Transfert de données vers MDS

MDS

Enrichissement MD par utilisateur
Saisir les MD nécessaires pour les calculs : cours, unités, taux de conversion.
Lancer la continuation du flux de données

Chargement DWH

Calcul et chargement des datamarts à partir des tables de faits et des données utilisateur MDS
Enregistrement du journal de téléchargement et des erreurs survenues avec les raisons

PowerBI

Actualisation du jeu de données PowerBI

Vous avez un projet ? Réalisons-le ensemble !

Remplissez le formulaire de retour d'information ou écrivez-nous à Team@DPLP.com et nous vous répondrons !

Comment ça fonctionne ?

Vous avez un projet ? Réalisons-le ensemble !

Avez-vous des questions ?

Voulez-vous travailler avec nous ?