DataPipeline.Pro

Herausforderung
Der Kunde stand vor mehreren Herausforderungen, darunter:
- Fehlende automatisierte Bereitstellungen für Composer/Dataflow und DBT.
- Fehlende Unit-Tests und Datenqualitätsprüfungen.
- Manuelle Einrichtung von Entwicklungsumgebungen, die zu Ineffizienzen führten.
Lösung
CI/CD-Implementierung:
- Einrichtung automatisierter Pipelines mit Bitbucket Pipelines.
- Automatisierte Bereitstellungen für Cloud Composer, Dataflow und DBT-Projekte.
- Sicherstellung der Möglichkeit zur Integration von Unit-Tests und Datenqualitätsprüfungen in CI-Pipelines.
Einrichtung der Entwicklungsumgebung:
- Konfigurierte automatisierte Bereitstellung in Entwicklungs-/Produktionsumgebungen von Feature-Branches.
- Etablierte Prozesse für minimalen manuellen Aufwand während des Testens. Projektabschluss: Q4-2024
Dokumentation und Schulung:
- Bereitstellung umfassender Dokumentation der implementierten Lösungen.
- Durchführung von Schulungen für das Softonic-Team zu neuen Prozessen und Tools.
Ergebnis
Die implementierte Lösung führte zu:
- Vollständig automatisierten Bereitstellungen, die den manuellen Aufwand erheblich reduzierten.
- Verbesserter Datenqualität durch integrierte Unit-Tests und Validierung.
- Vereinfachtem Setup der Entwicklungsumgebung, was Fehler reduzierte und die Effizienz steigerte.
- Verbesserter Agilität, die schnellere Iterationen und Bereitstellungen von Daten-Workflows ermöglichte.
Diese Transformation der CI/CD-Pipeline hat das Data-Engineering-Team des Kunden befähigt mit einem effizienten, skalierbaren und automatisierten Workflow, der nahtlose Bereitstellung und Datenzuverlässigkeit ermöglicht.
Technologie
- Orchestrierung: Airflow läuft in Cloud Composer
- Data Warehouse: BigQuery
- Transformationen: Migration zu DBT
- Ingestion: Dataflow-Jobs bereitgestellt über GCS-Vorlagen
- Verarbeitung: Python-Jobs laufen auf GCE VMs
- Berichterstattung: QlikSense
- Versionskontrolle & CI/CD: Bitbucket Pipelines

Wie funktioniert es?

Datenquellen

Cloud-Datenbanken
On-Premise-Datenbank
Excel-Dateien mit "schöner" Formatierung
CSV-Dateien

Python-Skript

Verarbeitung von Excel-Dateien mit Formatierung
Umwandlung in *.csv

Linux-Pipeline

Datenfilterung

Staging

Laden von Staging-Schema-Daten

Aggregation / MDS

Datenaggregation auf Monatsebene
Füllen von Zwischen-Faktentabellen
Laden von MD-Datenmarts
Datenübertragung zu MDS

MDS

MD-Anreicherung durch Benutzer
Eingabe der für Berechnungen erforderlichen MD: Kurse, Einheiten. Umrechnungsraten.
Fortsetzung des Datenflusses starten

DWH-Laden

Berechnung und Laden von Datenmarts aus Faktentabellen und MDS-Benutzerdaten
Aufzeichnung des Download-Protokolls und der aufgetretenen Fehler mit den Gründen

PowerBI

PowerBI-Dataset-Aktualisierung

Haben Sie ein Projekt? Lassen Sie es uns verwirklichen!

Füllen Sie das Feedback-Formular aus oder schreiben Sie uns an Team@DPLP.com und wir werden uns bei Ihnen melden!

Wie funktioniert es?

Haben Sie ein Projekt? Lassen Sie es uns verwirklichen!

Haben Sie Fragen?

Möchten Sie mit uns zusammenarbeiten?