DataPipeline.Pro

Desafío
El cliente enfrentó múltiples desafíos, incluyendo:
- Falta de despliegues automatizados para Composer/Dataflow y DBT.
- Ausencia de pruebas unitarias y verificaciones de calidad de datos.
- Configuración manual de entornos de desarrollo que lleva a ineficiencias.
Solución
Implementación de CI/CD:
- Configurar pipelines automatizados usando Bitbucket Pipelines.
- Despliegues automatizados para proyectos de Cloud Composer, Dataflow y DBT.
- Asegurar la posibilidad de integración de pruebas unitarias y verificaciones de calidad de datos en pipelines de CI.
Configuración del Entorno de Desarrollo:
- Configurado despliegue automatizado a entornos de desarrollo/producción desde ramas de características.
- Establecidos procesos para una configuración manual mínima durante las pruebas. Finalización del proyecto: Q4-2024
Documentación y Capacitación:
- Proporcionada documentación completa de las soluciones implementadas.
- Realizadas sesiones de capacitación para el equipo de Softonic sobre nuevos procesos y herramientas.
Resultado
La solución implementada resultó en:
- Despliegues completamente automatizados, reduciendo significativamente los esfuerzos manuales.
- Calidad de datos mejorada a través de pruebas unitarias integradas y validación.
- Configuración del entorno de desarrollo optimizada, reduciendo errores y mejorando la eficiencia.
- Agilidad mejorada, permitiendo iteraciones más rápidas y despliegue de flujos de trabajo de datos.
Esta transformación del pipeline de CI/CD ha empoderado al equipo de ingeniería de datos del cliente con un flujo de trabajo eficiente, escalable y automatizado, permitiendo despliegue sin problemas y confiabilidad de datos.
Tecnología
- Orquestación: Airflow ejecutándose en Cloud Composer
- Data Warehouse: BigQuery
- Transformaciones: Migrando a DBT
- Ingestión: Trabajos de Dataflow desplegados a través de plantillas de GCS
- Procesamiento: Trabajos de Python ejecutándose en GCE VMs
- Reportes: QlikSense
- Control de Versiones & CI/CD: Bitbucket Pipelines

¿Cómo funciona?

Fuentes de Datos

bases de datos en la nube
base de datos local
archivos de Excel con formato "bonito"
archivos csv

Script de Python

procesamiento de archivos Excel con formato
conversión a *.csv

Pipeline de Linux

Filtrado de datos

Staging

Carga de datos del esquema de staging

Agregación / MDS

Agregación de datos a nivel mensual
Población de Tablas de Hechos Intermedias
Carga de datamarts MD
Transferencia de datos a MDS

MDS

Enriquecimiento MD por usuario
Ingresar MD requerido para cálculos: cursos, unidades. tasas de conversión.
Lanzar continuación de flujo de datos

Carga de DWH

Cálculo y carga de datamarts desde tablas de hechos y datos de usuario de MDS
Registro del log de descarga y los errores ocurridos con las razones

PowerBI

Actualización del conjunto de datos de PowerBI

¿Tienes un proyecto? ¡Hagámoslo realidad!

Rellene el formulario de comentarios o escríbanos a Team@DPLP.com y nos pondremos en contacto con usted.

¿Cómo funciona?

¿Tienes un proyecto? ¡Hagámoslo realidad!

¿Tienes alguna pregunta?

¿Quieres trabajar con nosotros?