• Desafío

    Los valiosos datos de mercado de GfK solo eran accesibles a través de un proceso de inicio de sesión manual basado en la web, lo que hacía que la obtención e integración fueran ineficientes. El desafío era automatizar la recuperación de datos mientras se navegaba por las complejidades de la autenticación basada en SAML y se garantizaba la seguridad.

  • Solución
    • Automatización de Autenticación

      • El sistema automatiza la autenticación SAML, iniciando sesión de manera segura en GfK Connect utilizando credenciales almacenadas en Azure Key Vault.

      • La biblioteca Mechanize maneja el proceso de inicio de sesión de manera programática, asegurando una experiencia fluida.

    • Recuperación Automatizada de Archivos

      • BeautifulSoup se utiliza para escanear y extraer archivos de datos disponibles, eliminando la necesidad de descubrimiento manual.

    • Procesamiento e Integración de Datos

      • Databricks Compute Cluster orquesta la ingestión, filtrando archivos redundantes y transfiriendo solo datos nuevos al Azure Data Lake.

      • La canalización está optimizada para asegurar eficiencia y escalabilidad, permitiendo el manejo de datos a gran escala.

  • Resultado
    • Recuperación de datos completamente automatizada y segura, reduciendo significativamente el esfuerzo manual.

    • Integración fluida con almacenamiento en la nube y entornos de procesamiento de datos.

    • Seguridad mejorada con gestión estricta de credenciales a través de Azure Key Vault.

    • Una solución escalable que puede adaptarse a las crecientes demandas de datos.

  • Tecnología
    • Autenticación SAML – Validación de acceso seguro a través de GfK Federation.

    • Azure Key Vault – Almacenamiento seguro de credenciales y secretos.

    • Biblioteca Mechanize – Envío automatizado de formularios para autenticación.

    • BeautifulSoup – Descubrimiento automatizado de archivos de datos.

    • Databricks Compute Cluster – Orquestación y procesamiento de datos ingeridos.

    • Azure Data Lake – Almacenamiento e integración de archivos procesados.

¿Cómo funciona?

1
Fuentes de Datos
  • bases de datos en la nube
  • base de datos local
  • archivos de Excel con formato "bonito"
  • archivos csv
2
Script de Python
  • procesamiento de archivos de Excel con formato
  • conversión a *.csv
3
Pipeline de Linux
  • Filtrado de datos
4
Staging
  • Carga de datos del esquema de staging
5
Agregación / MDS
  • Agregación de datos a nivel mensual
  • Población de Tablas de Hechos Intermedias
  • Carga de datamarts MD
  • Transferencia de datos a MDS
6
MDS
  • Enriquecimiento MD por usuario
  • Introducir MD requerido para cálculos: cursos, unidades, tasas de conversión.
  • Lanzar continuación del flujo de datos
7
Carga de DWH
  • Cálculo y carga de datamarts desde tablas de hechos y datos de usuario de MDS
  • Registro del log de descarga y los errores ocurridos con las razones
8
PowerBI
  • Actualización del conjunto de datos de PowerBI