• Défi

    Le client a rencontré plusieurs défis, notamment :

    • Absence de déploiements automatisés pour Composer/Dataflow et DBT.

    • Absence de tests unitaires et de vérifications de la qualité des données.

    • Configuration manuelle des environnements de développement entraînant des inefficacités.

  • Solution

    Mise en œuvre CI/CD:​

    • Mise en place de pipelines automatisés en utilisant Bitbucket Pipelines.​
    • Déploiements automatisés pour les projets Cloud Composer, Dataflow et DBT.​
    • Assurer la possibilité d'intégration de tests unitaires et de vérifications de la qualité des données dans les pipelines CI.​

    Configuration de l'environnement de développement:​

    • Configuration du déploiement automatisé vers les environnements dev/prod à partir des branches de fonctionnalités.​
    • Établissement de processus pour une configuration manuelle minimale pendant les tests. Achèvement du projet : T4-2024​

    Documentation et Formation:​

    • Fourniture d'une documentation complète des solutions mises en œuvre.​
    • Organisation de sessions de formation pour l'équipe Softonic sur les nouveaux processus et outils.​
  • Résultat

    La solution mise en œuvre a abouti à :

    • Déploiements entièrement automatisés, réduisant considérablement les efforts manuels.

    • Qualité des données améliorée grâce à des tests unitaires et des validations intégrés.

    • Configuration de l'environnement de développement rationalisée, réduisant les erreurs et améliorant l'efficacité.

    • Agilité améliorée, permettant une itération et un déploiement plus rapides des flux de données.

    Cette transformation du pipeline CI/CD a permis à l'équipe d'ingénierie des données du client de disposer d'un flux de travail efficace, évolutif et automatisé, permettant un déploiement sans faille et une fiabilité des données.

  • Technologie
    • Orchestration: Airflow fonctionnant dans Cloud Composer

    • Entrepôt de données: BigQuery

    • Transformations: Migration vers DBT

    • Ingestion: Travaux Dataflow déployés via modèles GCS

    • Traitement: Travaux Python exécutés sur VMs GCE

    • Reporting: QlikSense

    • Contrôle de version & CI/CD: Bitbucket Pipelines

Comment ça fonctionne ?

1
Sources de données
  • bases de données cloud
  • base de données sur site
  • Fichiers Excel avec formatage "joli"
  • fichiers csv
2
Script Python
  • traitement des fichiers Excel avec formatage
  • conversion en *.csv
3
Pipeline Linux
  • Filtrage des données
4
Mise en scène
  • Chargement des données du schéma de mise en scène
5
Agrégation / MDS
  • Agrégation des données au niveau du mois
  • Remplissage des tables de faits intermédiaires
  • Chargement des datamarts MD
  • Transfert de données vers MDS
6
MDS
  • Enrichissement MD par utilisateur
  • Saisir les MD nécessaires pour les calculs : cours, unités, taux de conversion.
  • Lancer la continuation du flux de données
7
Chargement DWH
  • Calcul et chargement des datamarts à partir des tables de faits et des données utilisateur MDS
  • Enregistrement du journal de téléchargement et des erreurs survenues avec les raisons
8
PowerBI
  • Actualisation du jeu de données PowerBI