• Défi

    Les précieuses données de marché de GfK n'étaient accessibles que par un processus de connexion manuel basé sur le web, rendant l'approvisionnement et l'intégration inefficaces. Le défi consistait à automatiser la récupération des données tout en naviguant dans les complexités de l'authentification basée sur SAML et en garantissant la sécurité.

  • Solution
    • Automatisation de l'authentification

      • Le système automatise l'authentification SAML, se connectant en toute sécurité à GfK Connect en utilisant des identifiants stockés dans Azure Key Vault.

      • La bibliothèque Mechanize gère le processus de connexion de manière programmatique, assurant une expérience fluide.

    • Récupération automatisée de fichiers

      • BeautifulSoup est utilisé pour analyser et extraire les fichiers de données disponibles, éliminant le besoin de découverte manuelle.

    • Traitement et intégration des données

      • Databricks Compute Cluster orchestre l'ingestion, filtrant les fichiers redondants et transférant uniquement les nouvelles données vers l'Azure Data Lake.

      • Le pipeline est optimisé pour assurer efficacité et évolutivité, permettant la gestion de données à grande échelle.

  • Résultat
    • Récupération de données entièrement automatisée et sécurisée, réduisant considérablement l'effort manuel.

    • Intégration transparente avec le stockage cloud et les environnements de traitement des données.

    • Sécurité renforcée avec une gestion stricte des identifiants via Azure Key Vault.

    • Une solution évolutive capable de s'adapter aux demandes croissantes de données.

  • Technologie
    • Authentification SAML – Validation d'accès sécurisée via la fédération GfK.

    • Azure Key Vault – Stockage sécurisé des identifiants et secrets.

    • Bibliothèque Mechanize – Soumission automatique de formulaires pour l'authentification.

    • BeautifulSoup – Découverte automatisée des fichiers de données.

    • Databricks Compute Cluster – Orchestration et traitement des données ingérées.

    • Azure Data Lake – Stockage et intégration des fichiers traités.

Comment ça fonctionne ?

1
Sources de données
  • bases de données cloud
  • base de données sur site
  • fichiers Excel avec mise en forme "jolie"
  • fichiers csv
2
Script Python
  • traitement des fichiers Excel avec mise en forme
  • conversion en *.csv
3
Pipeline Linux
  • Filtrage des données
4
Mise en scène
  • Chargement des données du schéma de mise en scène
5
Agrégation / MDS
  • Agrégation des données au niveau du mois
  • Remplissage des tables de faits intermédiaires
  • Chargement des datamarts MD
  • Transfert de données vers MDS
6
MDS
  • Enrichissement MD par utilisateur
  • Entrer les MD nécessaires pour les calculs : cours, unités. taux de conversion.
  • Lancer la continuation du flux de données
7
Chargement DWH
  • Calcul et chargement des datamarts à partir des tables de faits et des données utilisateur MDS
  • Enregistrement du journal de téléchargement et des erreurs survenues avec les raisons
8
PowerBI
  • Rafraîchissement du jeu de données PowerBI