• Herausforderung

    Der Kunde stand vor mehreren Herausforderungen, darunter:

    • Fehlende automatisierte Bereitstellungen für Composer/Dataflow und DBT.

    • Fehlende Unit-Tests und Datenqualitätsprüfungen.

    • Manuelle Einrichtung von Entwicklungsumgebungen, die zu Ineffizienzen führten.

  • Lösung

    CI/CD-Implementierung:​

    • Einrichtung automatisierter Pipelines mit Bitbucket Pipelines.​
    • Automatisierte Bereitstellungen für Cloud Composer, Dataflow und DBT-Projekte.​
    • Sicherstellung der Möglichkeit zur Integration von Unit-Tests und Datenqualitätsprüfungen in CI-Pipelines.​

    Einrichtung der Entwicklungsumgebung:​

    • Konfigurierte automatisierte Bereitstellung in Entwicklungs-/Produktionsumgebungen von Feature-Branches.​
    • Etablierte Prozesse für minimalen manuellen Aufwand während des Testens. Projektabschluss: Q4-2024​

    Dokumentation und Schulung:​

    • Bereitstellung umfassender Dokumentation der implementierten Lösungen.​
    • Durchführung von Schulungen für das Softonic-Team zu neuen Prozessen und Tools.​
  • Ergebnis

    Die implementierte Lösung führte zu:

    • Vollständig automatisierten Bereitstellungen, die den manuellen Aufwand erheblich reduzierten.

    • Verbesserter Datenqualität durch integrierte Unit-Tests und Validierung.

    • Vereinfachtem Setup der Entwicklungsumgebung, was Fehler reduzierte und die Effizienz steigerte.

    • Verbesserter Agilität, die schnellere Iterationen und Bereitstellungen von Daten-Workflows ermöglichte.

    Diese Transformation der CI/CD-Pipeline hat das Data-Engineering-Team des Kunden befähigt mit einem effizienten, skalierbaren und automatisierten Workflow, der nahtlose Bereitstellung und Datenzuverlässigkeit ermöglicht.

  • Technologie
    • Orchestrierung: Airflow läuft in Cloud Composer

    • Data Warehouse: BigQuery

    • Transformationen: Migration zu DBT

    • Ingestion: Dataflow-Jobs bereitgestellt über GCS-Vorlagen

    • Verarbeitung: Python-Jobs laufen auf GCE VMs

    • Berichterstattung: QlikSense

    • Versionskontrolle & CI/CD: Bitbucket Pipelines

Wie funktioniert es?

1
Datenquellen
  • Cloud-Datenbanken
  • On-Premise-Datenbank
  • Excel-Dateien mit "schöner" Formatierung
  • CSV-Dateien
2
Python-Skript
  • Verarbeitung von Excel-Dateien mit Formatierung
  • Umwandlung in *.csv
3
Linux-Pipeline
  • Datenfilterung
4
Staging
  • Laden von Staging-Schema-Daten
5
Aggregation / MDS
  • Datenaggregation auf Monatsebene
  • Füllen von Zwischen-Faktentabellen
  • Laden von MD-Datenmarts
  • Datenübertragung zu MDS
6
MDS
  • MD-Anreicherung durch Benutzer
  • Eingabe der für Berechnungen erforderlichen MD: Kurse, Einheiten. Umrechnungsraten.
  • Fortsetzung des Datenflusses starten
7
DWH-Laden
  • Berechnung und Laden von Datenmarts aus Faktentabellen und MDS-Benutzerdaten
  • Aufzeichnung des Download-Protokolls und der aufgetretenen Fehler mit den Gründen
8
PowerBI
  • PowerBI-Dataset-Aktualisierung