DataPipeline.Pro

Desafío
Los valiosos datos de mercado de GfK solo eran accesibles a través de un proceso de inicio de sesión manual basado en la web, lo que hacía que la obtención e integración fueran ineficientes. El desafío era automatizar la recuperación de datos mientras se navegaba por las complejidades de la autenticación basada en SAML y se garantizaba la seguridad.
Solución
- Automatización de Autenticación
  - El sistema automatiza la autenticación SAML, iniciando sesión de manera segura en GfK Connect utilizando credenciales almacenadas en Azure Key Vault.
  - La biblioteca Mechanize maneja el proceso de inicio de sesión de manera programática, asegurando una experiencia fluida.
- Recuperación Automatizada de Archivos
  - BeautifulSoup se utiliza para escanear y extraer archivos de datos disponibles, eliminando la necesidad de descubrimiento manual.
- Procesamiento e Integración de Datos
  - Databricks Compute Cluster orquesta la ingestión, filtrando archivos redundantes y transfiriendo solo datos nuevos al Azure Data Lake.
  - La canalización está optimizada para asegurar eficiencia y escalabilidad, permitiendo el manejo de datos a gran escala.
Resultado
- Recuperación de datos completamente automatizada y segura, reduciendo significativamente el esfuerzo manual.
- Integración fluida con almacenamiento en la nube y entornos de procesamiento de datos.
- Seguridad mejorada con gestión estricta de credenciales a través de Azure Key Vault.
- Una solución escalable que puede adaptarse a las crecientes demandas de datos.
Tecnología
- Autenticación SAML – Validación de acceso seguro a través de GfK Federation.
- Azure Key Vault – Almacenamiento seguro de credenciales y secretos.
- Biblioteca Mechanize – Envío automatizado de formularios para autenticación.
- BeautifulSoup – Descubrimiento automatizado de archivos de datos.
- Databricks Compute Cluster – Orquestación y procesamiento de datos ingeridos.
- Azure Data Lake – Almacenamiento e integración de archivos procesados.

¿Cómo funciona?

Fuentes de Datos

bases de datos en la nube
base de datos local
archivos de Excel con formato "bonito"
archivos csv

Script de Python

procesamiento de archivos de Excel con formato
conversión a *.csv

Pipeline de Linux

Filtrado de datos

Staging

Carga de datos del esquema de staging

Agregación / MDS

Agregación de datos a nivel mensual
Población de Tablas de Hechos Intermedias
Carga de datamarts MD
Transferencia de datos a MDS

MDS

Enriquecimiento MD por usuario
Introducir MD requerido para cálculos: cursos, unidades, tasas de conversión.
Lanzar continuación del flujo de datos

Carga de DWH

Cálculo y carga de datamarts desde tablas de hechos y datos de usuario de MDS
Registro del log de descarga y los errores ocurridos con las razones

PowerBI

Actualización del conjunto de datos de PowerBI

¿Tienes un proyecto? ¡Hagámoslo realidad!

Rellene el formulario de comentarios o escríbanos a Team@DPLP.com y nos pondremos en contacto con usted.

¿Cómo funciona?

¿Tienes un proyecto? ¡Hagámoslo realidad!

¿Tienes alguna pregunta?

¿Quieres trabajar con nosotros?