-
Défi
Les précieuses données de marché de GfK n'étaient accessibles que par un processus de connexion manuel basé sur le web, rendant l'approvisionnement et l'intégration inefficaces. Le défi consistait à automatiser la récupération des données tout en naviguant dans les complexités de l'authentification basée sur SAML et en garantissant la sécurité.
-
Solution
-
Automatisation de l'authentification
-
Le système automatise l'authentification SAML, se connectant en toute sécurité à GfK Connect en utilisant des identifiants stockés dans Azure Key Vault.
-
La bibliothèque Mechanize gère le processus de connexion de manière programmatique, assurant une expérience fluide.
-
-
Récupération automatisée de fichiers
-
BeautifulSoup est utilisé pour analyser et extraire les fichiers de données disponibles, éliminant le besoin de découverte manuelle.
-
-
Traitement et intégration des données
-
Databricks Compute Cluster orchestre l'ingestion, filtrant les fichiers redondants et transférant uniquement les nouvelles données vers l'Azure Data Lake.
-
Le pipeline est optimisé pour assurer efficacité et évolutivité, permettant la gestion de données à grande échelle.
-
-
-
Résultat
-
Récupération de données entièrement automatisée et sécurisée, réduisant considérablement l'effort manuel.
-
Intégration transparente avec le stockage cloud et les environnements de traitement des données.
-
Sécurité renforcée avec une gestion stricte des identifiants via Azure Key Vault.
-
Une solution évolutive capable de s'adapter aux demandes croissantes de données.
-
-
Technologie
-
Authentification SAML – Validation d'accès sécurisée via la fédération GfK.
-
Azure Key Vault – Stockage sécurisé des identifiants et secrets.
-
Bibliothèque Mechanize – Soumission automatique de formulaires pour l'authentification.
-
BeautifulSoup – Découverte automatisée des fichiers de données.
-
Databricks Compute Cluster – Orchestration et traitement des données ingérées.
-
Azure Data Lake – Stockage et intégration des fichiers traités.
-
Comment ça fonctionne ?
- bases de données cloud
- base de données sur site
- fichiers Excel avec mise en forme "jolie"
- fichiers csv
- traitement des fichiers Excel avec mise en forme
- conversion en *.csv
- Filtrage des données
- Chargement des données du schéma de mise en scène
- Agrégation des données au niveau du mois
- Remplissage des tables de faits intermédiaires
- Chargement des datamarts MD
- Transfert de données vers MDS
- Enrichissement MD par utilisateur
- Entrer les MD nécessaires pour les calculs : cours, unités. taux de conversion.
- Lancer la continuation du flux de données
- Calcul et chargement des datamarts à partir des tables de faits et des données utilisateur MDS
- Enregistrement du journal de téléchargement et des erreurs survenues avec les raisons
- Rafraîchissement du jeu de données PowerBI