DataPipeline.Pro

Herausforderung
GfKs wertvolle Marktdaten waren nur über einen manuellen webbasierten Anmeldeprozess zugänglich, was die Beschaffung und Integration ineffizient machte. Die Herausforderung bestand darin, die Datenabfrage zu automatisieren und dabei die Komplexität der SAML-basierten Authentifizierung zu bewältigen und die Sicherheit zu gewährleisten.
Lösung
- Authentifizierungsautomatisierung
  - Das System automatisiert die SAML-Authentifizierung, indem es sich sicher mit in Azure Key Vault gespeicherten Anmeldedaten bei GfK Connect einloggt.
  - Die Mechanize-Bibliothek übernimmt den Anmeldeprozess programmatisch und sorgt für ein nahtloses Erlebnis.
- Automatisierte Dateiabfrage
  - BeautifulSoup wird verwendet, um verfügbare Datendateien zu scannen und extrahieren, wodurch die manuelle Suche entfällt.
- Datenverarbeitung & Integration
  - Der Databricks Compute Cluster orchestriert die Aufnahme, filtert redundante Dateien und überträgt nur neue Daten in den Azure Data Lake.
  - Die Pipeline ist optimiert, um Effizienz und Skalierbarkeit zu gewährleisten und die Verarbeitung großer Datenmengen zu ermöglichen.
Ergebnis
- Vollständig automatisierte und sichere Datenabfrage, die den manuellen Aufwand erheblich reduziert.
- Nahtlose Integration mit Cloud-Speicher- und Datenverarbeitungsumgebungen.
- Erhöhte Sicherheit durch striktes Anmeldedatenmanagement über Azure Key Vault.
- Eine skalierbare Lösung, die sich an wachsende Datenanforderungen anpassen kann.
Technologie
- SAML-Authentifizierung – Sichere Zugangsvalidierung über GfK Federation.
- Azure Key Vault – Sichere Speicherung von Anmeldedaten und Geheimnissen.
- Mechanize-Bibliothek – Automatisierte Formularübermittlung für die Authentifizierung.
- BeautifulSoup – Automatisierte Entdeckung von Datendateien.
- Databricks Compute Cluster – Orchestrierung und Verarbeitung der aufgenommenen Daten.
- Azure Data Lake – Speicherung und Integration der verarbeiteten Dateien.

Wie funktioniert es?

Datenquellen

Cloud-Datenbanken
On-Premise-Datenbank
Excel-Dateien mit "schöner" Formatierung
CSV-Dateien

Python-Skript

Verarbeitung von Excel-Dateien mit Formatierung
Umwandlung in *.csv

Linux-Pipeline

Datenfilterung

Staging

Datenladung des Staging-Schemas

Aggregation / MDS

Datenaggregation auf Monatsebene
Befüllen von Intermediate Fact Tables
Laden von MD-Datenmarts
Datenübertragung zu MDS

MDS

MD-Anreicherung durch Benutzer
Eingabe der für Berechnungen erforderlichen MD: Kurse, Einheiten, Umrechnungskurse.
Fortsetzung des Datenflusses starten

DWH-Ladung

Berechnung und Laden von Datenmarts aus Faktentabellen und MDS-Benutzerdaten
Aufzeichnung des Download-Protokolls und der aufgetretenen Fehler mit den Gründen

PowerBI

PowerBI-Dataset-Aktualisierung

Haben Sie ein Projekt? Lassen Sie es uns verwirklichen!

Füllen Sie das Feedback-Formular aus oder schreiben Sie uns an Team@DPLP.com und wir werden uns bei Ihnen melden!

Wie funktioniert es?

Haben Sie ein Projekt? Lassen Sie es uns verwirklichen!

Haben Sie Fragen?

Möchten Sie mit uns zusammenarbeiten?