-
Desafío
Los valiosos datos de mercado de GfK solo eran accesibles a través de un proceso de inicio de sesión manual basado en la web, lo que hacía que la obtención e integración fueran ineficientes. El desafío era automatizar la recuperación de datos mientras se navegaba por las complejidades de la autenticación basada en SAML y se garantizaba la seguridad.
-
Solución
-
Automatización de Autenticación
-
El sistema automatiza la autenticación SAML, iniciando sesión de manera segura en GfK Connect utilizando credenciales almacenadas en Azure Key Vault.
-
La biblioteca Mechanize maneja el proceso de inicio de sesión de manera programática, asegurando una experiencia fluida.
-
-
Recuperación Automatizada de Archivos
-
BeautifulSoup se utiliza para escanear y extraer archivos de datos disponibles, eliminando la necesidad de descubrimiento manual.
-
-
Procesamiento e Integración de Datos
-
Databricks Compute Cluster orquesta la ingestión, filtrando archivos redundantes y transfiriendo solo datos nuevos al Azure Data Lake.
-
La canalización está optimizada para asegurar eficiencia y escalabilidad, permitiendo el manejo de datos a gran escala.
-
-
-
Resultado
-
Recuperación de datos completamente automatizada y segura, reduciendo significativamente el esfuerzo manual.
-
Integración fluida con almacenamiento en la nube y entornos de procesamiento de datos.
-
Seguridad mejorada con gestión estricta de credenciales a través de Azure Key Vault.
-
Una solución escalable que puede adaptarse a las crecientes demandas de datos.
-
-
Tecnología
-
Autenticación SAML – Validación de acceso seguro a través de GfK Federation.
-
Azure Key Vault – Almacenamiento seguro de credenciales y secretos.
-
Biblioteca Mechanize – Envío automatizado de formularios para autenticación.
-
BeautifulSoup – Descubrimiento automatizado de archivos de datos.
-
Databricks Compute Cluster – Orquestación y procesamiento de datos ingeridos.
-
Azure Data Lake – Almacenamiento e integración de archivos procesados.
-
¿Cómo funciona?
- bases de datos en la nube
- base de datos local
- archivos de Excel con formato "bonito"
- archivos csv
- procesamiento de archivos de Excel con formato
- conversión a *.csv
- Filtrado de datos
- Carga de datos del esquema de staging
- Agregación de datos a nivel mensual
- Población de Tablas de Hechos Intermedias
- Carga de datamarts MD
- Transferencia de datos a MDS
- Enriquecimiento MD por usuario
- Introducir MD requerido para cálculos: cursos, unidades, tasas de conversión.
- Lanzar continuación del flujo de datos
- Cálculo y carga de datamarts desde tablas de hechos y datos de usuario de MDS
- Registro del log de descarga y los errores ocurridos con las razones
- Actualización del conjunto de datos de PowerBI