• Herausforderung

    GfKs wertvolle Marktdaten waren nur über einen manuellen webbasierten Anmeldeprozess zugänglich, was die Beschaffung und Integration ineffizient machte. Die Herausforderung bestand darin, die Datenabfrage zu automatisieren und dabei die Komplexität der SAML-basierten Authentifizierung zu bewältigen und die Sicherheit zu gewährleisten.

  • Lösung
    • Authentifizierungsautomatisierung

      • Das System automatisiert die SAML-Authentifizierung, indem es sich sicher mit in Azure Key Vault gespeicherten Anmeldedaten bei GfK Connect einloggt.

      • Die Mechanize-Bibliothek übernimmt den Anmeldeprozess programmatisch und sorgt für ein nahtloses Erlebnis.

    • Automatisierte Dateiabfrage

      • BeautifulSoup wird verwendet, um verfügbare Datendateien zu scannen und extrahieren, wodurch die manuelle Suche entfällt.

    • Datenverarbeitung & Integration

      • Der Databricks Compute Cluster orchestriert die Aufnahme, filtert redundante Dateien und überträgt nur neue Daten in den Azure Data Lake.

      • Die Pipeline ist optimiert, um Effizienz und Skalierbarkeit zu gewährleisten und die Verarbeitung großer Datenmengen zu ermöglichen.

  • Ergebnis
    • Vollständig automatisierte und sichere Datenabfrage, die den manuellen Aufwand erheblich reduziert.

    • Nahtlose Integration mit Cloud-Speicher- und Datenverarbeitungsumgebungen.

    • Erhöhte Sicherheit durch striktes Anmeldedatenmanagement über Azure Key Vault.

    • Eine skalierbare Lösung, die sich an wachsende Datenanforderungen anpassen kann.

  • Technologie
    • SAML-Authentifizierung – Sichere Zugangsvalidierung über GfK Federation.

    • Azure Key Vault – Sichere Speicherung von Anmeldedaten und Geheimnissen.

    • Mechanize-Bibliothek – Automatisierte Formularübermittlung für die Authentifizierung.

    • BeautifulSoup – Automatisierte Entdeckung von Datendateien.

    • Databricks Compute Cluster – Orchestrierung und Verarbeitung der aufgenommenen Daten.

    • Azure Data Lake – Speicherung und Integration der verarbeiteten Dateien.

Wie funktioniert es?

1
Datenquellen
  • Cloud-Datenbanken
  • On-Premise-Datenbank
  • Excel-Dateien mit "schöner" Formatierung
  • CSV-Dateien
2
Python-Skript
  • Verarbeitung von Excel-Dateien mit Formatierung
  • Umwandlung in *.csv
3
Linux-Pipeline
  • Datenfilterung
4
Staging
  • Datenladung des Staging-Schemas
5
Aggregation / MDS
  • Datenaggregation auf Monatsebene
  • Befüllen von Intermediate Fact Tables
  • Laden von MD-Datenmarts
  • Datenübertragung zu MDS
6
MDS
  • MD-Anreicherung durch Benutzer
  • Eingabe der für Berechnungen erforderlichen MD: Kurse, Einheiten, Umrechnungskurse.
  • Fortsetzung des Datenflusses starten
7
DWH-Ladung
  • Berechnung und Laden von Datenmarts aus Faktentabellen und MDS-Benutzerdaten
  • Aufzeichnung des Download-Protokolls und der aufgetretenen Fehler mit den Gründen
8
PowerBI
  • PowerBI-Dataset-Aktualisierung