DataPipeline.Pro

Uitdaging
De klant stond voor meerdere uitdagingen, waaronder:
- Gebrek aan geautomatiseerde implementaties voor Composer/Dataflow en DBT.
- Afwezigheid van unittests en datakwaliteitscontroles.
- Handmatige opzet van ontwikkelomgevingen leidend tot inefficiënties.
Oplossing
CI/CD Implementatie:
- Opzetten van geautomatiseerde pipelines met Bitbucket Pipelines.
- Geautomatiseerde implementaties voor Cloud Composer, Dataflow en DBT projecten.
- Zorgen voor de mogelijkheid van integratie van unittests en datakwaliteitscontroles in CI pipelines.
Ontwikkelomgeving Setup:
- Geconfigureerde geautomatiseerde implementatie naar dev/prod omgevingen vanuit feature branches.
- Opgezette processen voor minimale handmatige setup tijdens testen. Project voltooiing: Q4-2024
Documentatie en Training:
- Geleverd uitgebreide documentatie van de geïmplementeerde oplossingen.
- Gegeven trainingssessies voor het Softonic team over nieuwe processen en tools.
Resultaat
De geïmplementeerde oplossing resulteerde in:
- Volledig geautomatiseerde implementaties, wat de handmatige inspanningen aanzienlijk verminderde.
- Verbeterde datakwaliteit door geïntegreerde unittests en validatie.
- Gestroomlijnde ontwikkelomgeving setup, wat fouten verminderde en efficiëntie verbeterde.
- Verbeterde wendbaarheid, waardoor snellere iteratie en implementatie van dataworkflows mogelijk werd.
Deze CI/CD pipeline transformatie heeft het data engineering team van de klant in staat gesteld met een efficiënte, schaalbare en geautomatiseerde workflow, wat naadloze implementatie en data betrouwbaarheid mogelijk maakt.
Technologie
- Orchestratie: Airflow draaiend in Cloud Composer
- Data Warehouse: BigQuery
- Transformaties: Migreren naar DBT
- Ingestie: Dataflow taken geïmplementeerd via GCS templates
- Verwerking: Python taken draaiend op GCE VMs
- Rapportage: QlikSense
- Versiebeheer & CI/CD: Bitbucket Pipelines

Hoe werkt het?

Gegevensbronnen

cloud databases
on-premise database
Excel-bestanden met "mooie" opmaak
csv-bestanden

Python Script

verwerking van Excel-bestanden met opmaak
conversie naar *.csv

Linux Pipeline

Gegevensfiltering

Staging

Staging schema gegevens laden

Aggregatie / MDS

Gegevensaggregatie op maandniveau
Vullen van Intermediate Fact Tables
Laden van MD datamarts
Gegevensoverdracht naar MDS

MDS

MD Verrijking door gebruiker
Voer MD in die nodig is voor berekeningen: cursussen, eenheden. conversiepercentages.
Start voortzetting van dataflow

DWH Laden

Berekening en laden van datamarts uit facttabellen en MDS-gebruikersgegevens
Registratie van het downloadlogboek en de fouten die optraden met de redenen

PowerBI

PowerBI dataset verversen

Heb je een project? Laten we het realiseren!

Vul het feedbackformulier in of schrijf ons op Team@DPLP.com en we nemen contact met je op!

Hoe werkt het?

Heb je een project? Laten we het realiseren!

Heeft u nog vragen?

Wil je met ons samenwerken?