• Uitdaging

    De klant stond voor meerdere uitdagingen, waaronder:

    • Gebrek aan geautomatiseerde implementaties voor Composer/Dataflow en DBT.

    • Afwezigheid van unittests en datakwaliteitscontroles.

    • Handmatige opzet van ontwikkelomgevingen leidend tot inefficiënties.

  • Oplossing

    CI/CD Implementatie:​

    • Opzetten van geautomatiseerde pipelines met Bitbucket Pipelines.​
    • Geautomatiseerde implementaties voor Cloud Composer, Dataflow en DBT projecten.​
    • Zorgen voor de mogelijkheid van integratie van unittests en datakwaliteitscontroles in CI pipelines.​

    Ontwikkelomgeving Setup:​

    • Geconfigureerde geautomatiseerde implementatie naar dev/prod omgevingen vanuit feature branches.​
    • Opgezette processen voor minimale handmatige setup tijdens testen. Project voltooiing: Q4-2024​

    Documentatie en Training:​

    • Geleverd uitgebreide documentatie van de geïmplementeerde oplossingen.​
    • Gegeven trainingssessies voor het Softonic team over nieuwe processen en tools.​
  • Resultaat

    De geïmplementeerde oplossing resulteerde in:

    • Volledig geautomatiseerde implementaties, wat de handmatige inspanningen aanzienlijk verminderde.

    • Verbeterde datakwaliteit door geïntegreerde unittests en validatie.

    • Gestroomlijnde ontwikkelomgeving setup, wat fouten verminderde en efficiëntie verbeterde.

    • Verbeterde wendbaarheid, waardoor snellere iteratie en implementatie van dataworkflows mogelijk werd.

    Deze CI/CD pipeline transformatie heeft het data engineering team van de klant in staat gesteld met een efficiënte, schaalbare en geautomatiseerde workflow, wat naadloze implementatie en data betrouwbaarheid mogelijk maakt.

  • Technologie
    • Orchestratie: Airflow draaiend in Cloud Composer

    • Data Warehouse: BigQuery

    • Transformaties: Migreren naar DBT

    • Ingestie: Dataflow taken geïmplementeerd via GCS templates

    • Verwerking: Python taken draaiend op GCE VMs

    • Rapportage: QlikSense

    • Versiebeheer & CI/CD: Bitbucket Pipelines

Hoe werkt het?

1
Gegevensbronnen
  • cloud databases
  • on-premise database
  • Excel-bestanden met "mooie" opmaak
  • csv-bestanden
2
Python Script
  • verwerking van Excel-bestanden met opmaak
  • conversie naar *.csv
3
Linux Pipeline
  • Gegevensfiltering
4
Staging
  • Staging schema gegevens laden
5
Aggregatie / MDS
  • Gegevensaggregatie op maandniveau
  • Vullen van Intermediate Fact Tables
  • Laden van MD datamarts
  • Gegevensoverdracht naar MDS
6
MDS
  • MD Verrijking door gebruiker
  • Voer MD in die nodig is voor berekeningen: cursussen, eenheden. conversiepercentages.
  • Start voortzetting van dataflow
7
DWH Laden
  • Berekening en laden van datamarts uit facttabellen en MDS-gebruikersgegevens
  • Registratie van het downloadlogboek en de fouten die optraden met de redenen
8
PowerBI
  • PowerBI dataset verversen