• Uitdaging

    GfK's waardevolle marktgegevens waren alleen toegankelijk via een handmatig webgebaseerd inlogproces, waardoor het verkrijgen en integreren inefficiënt was. De uitdaging was om het ophalen van gegevens te automatiseren terwijl de complexiteit van SAML-gebaseerde authenticatie werd genavigeerd en de veiligheid werd gewaarborgd.

  • Oplossing
    • Authenticatie Automatisering

      • Het systeem automatiseert SAML-authenticatie, en logt veilig in op GfK Connect met behulp van in Azure Key Vault opgeslagen referenties.

      • Mechanize bibliotheek handelt het inlogproces programmatisch af, wat zorgt voor een naadloze ervaring.

    • Geautomatiseerd Bestandsophalen

      • BeautifulSoup wordt gebruikt om beschikbare gegevensbestanden te scannen en extraheren, waardoor handmatige ontdekking overbodig wordt.

    • Gegevensverwerking & Integratie

      • Databricks Compute Cluster orkestreert de opname, filtert overbodige bestanden en verplaatst alleen nieuwe gegevens naar de Azure Data Lake.

      • De pijplijn is geoptimaliseerd om efficiëntie en schaalbaarheid te garanderen, waardoor grootschalige gegevensverwerking mogelijk is.

  • Resultaat
    • Volledig geautomatiseerd en veilig gegevens ophalen, wat de handmatige inspanning aanzienlijk vermindert.

    • Naadloze integratie met cloudopslag en gegevensverwerkingsomgevingen.

    • Verbeterde beveiliging met strikt beheer van referenties via Azure Key Vault.

    • Een schaalbare oplossing die kan inspelen op groeiende gegevensbehoeften.

  • Technologie
    • SAML Authenticatie – Veilige toegangsvalidatie via GfK Federatie.

    • Azure Key Vault – Veilige opslag van referenties en geheimen.

    • Mechanize Bibliotheek – Geautomatiseerde formulierindiening voor authenticatie.

    • BeautifulSoup – Geautomatiseerde ontdekking van gegevensbestanden.

    • Databricks Compute Cluster – Orkestratie en verwerking van opgenomen gegevens.

    • Azure Data Lake – Opslag en integratie van verwerkte bestanden.

Hoe werkt het?

1
Gegevensbronnen
  • cloud databases
  • on-premise database
  • Excel-bestanden met "mooie" opmaak
  • csv-bestanden
2
Python Script
  • verwerking van Excel-bestanden met opmaak
  • conversie naar *.csv
3
Linux Pipeline
  • Gegevensfiltering
4
Staging
  • Staging schema gegevens laden
5
Aggregatie / MDS
  • Gegevensaggregatie op maandniveau
  • Vullen van Intermediate Fact Tables
  • Laden van MD datamarts
  • Gegevensoverdracht naar MDS
6
MDS
  • MD Verrijking door gebruiker
  • Voer MD in die nodig is voor berekeningen: cursussen, eenheden. conversiepercentages.
  • Start voortzetting van dataflow
7
DWH Laden
  • Berekening en laden van datamarts vanuit fact tables en MDS-gebruikersgegevens
  • Het logboek van de download en de opgetreden fouten met de redenen vastleggen
8
PowerBI
  • PowerBI dataset verversen