• Desafío

    El cliente enfrentó múltiples desafíos, incluyendo:

    • Falta de despliegues automatizados para Composer/Dataflow y DBT.

    • Ausencia de pruebas unitarias y verificaciones de calidad de datos.

    • Configuración manual de entornos de desarrollo que lleva a ineficiencias.

  • Solución

    Implementación de CI/CD:​

    • Configurar pipelines automatizados usando Bitbucket Pipelines.​
    • Despliegues automatizados para proyectos de Cloud Composer, Dataflow y DBT.​
    • Asegurar la posibilidad de integración de pruebas unitarias y verificaciones de calidad de datos en pipelines de CI.​

    Configuración del Entorno de Desarrollo:​

    • Configurado despliegue automatizado a entornos de desarrollo/producción desde ramas de características.​
    • Establecidos procesos para una configuración manual mínima durante las pruebas. Finalización del proyecto: Q4-2024​

    Documentación y Capacitación:​

    • Proporcionada documentación completa de las soluciones implementadas.​
    • Realizadas sesiones de capacitación para el equipo de Softonic sobre nuevos procesos y herramientas.​
  • Resultado

    La solución implementada resultó en:

    • Despliegues completamente automatizados, reduciendo significativamente los esfuerzos manuales.

    • Calidad de datos mejorada a través de pruebas unitarias integradas y validación.

    • Configuración del entorno de desarrollo optimizada, reduciendo errores y mejorando la eficiencia.

    • Agilidad mejorada, permitiendo iteraciones más rápidas y despliegue de flujos de trabajo de datos.

    Esta transformación del pipeline de CI/CD ha empoderado al equipo de ingeniería de datos del cliente con un flujo de trabajo eficiente, escalable y automatizado, permitiendo despliegue sin problemas y confiabilidad de datos.

  • Tecnología
    • Orquestación: Airflow ejecutándose en Cloud Composer

    • Data Warehouse: BigQuery

    • Transformaciones: Migrando a DBT

    • Ingestión: Trabajos de Dataflow desplegados a través de plantillas de GCS

    • Procesamiento: Trabajos de Python ejecutándose en GCE VMs

    • Reportes: QlikSense

    • Control de Versiones & CI/CD: Bitbucket Pipelines

¿Cómo funciona?

1
Fuentes de Datos
  • bases de datos en la nube
  • base de datos local
  • archivos de Excel con formato "bonito"
  • archivos csv
2
Script de Python
  • procesamiento de archivos Excel con formato
  • conversión a *.csv
3
Pipeline de Linux
  • Filtrado de datos
4
Staging
  • Carga de datos del esquema de staging
5
Agregación / MDS
  • Agregación de datos a nivel mensual
  • Población de Tablas de Hechos Intermedias
  • Carga de datamarts MD
  • Transferencia de datos a MDS
6
MDS
  • Enriquecimiento MD por usuario
  • Ingresar MD requerido para cálculos: cursos, unidades. tasas de conversión.
  • Lanzar continuación de flujo de datos
7
Carga de DWH
  • Cálculo y carga de datamarts desde tablas de hechos y datos de usuario de MDS
  • Registro del log de descarga y los errores ocurridos con las razones
8
PowerBI
  • Actualización del conjunto de datos de PowerBI